网易云音乐歌名&歌词获取方案收集
起因
今天突然发现从上周开始(2024/10/23)通过网易云音乐 PC 客户端下载的歌(.ncm)连他自己都播放不了,拿去解密也说文件是损坏的。而且我的客户端版本很久没更新过了(因为新版刚出的时候是没有下载功能的,就退回去了一直没更新),于是猜测可能是下载的接口变了或者是其他原因,就去下载新版客户端,然后再去下载歌曲,结果发现没问题了。
那就用新版客户端好了,然后突发奇想看能不能顺便解决一下 OBS 获取歌曲其他信息的问题(现在一搜就能出来的 tuna 只能通过获取窗口标题来获取歌名这样,而且就算用 Spotify,也最多获取到歌曲时长、播放到哪,并且刷新很迷惑,有时候可能连续10s都能正确刷新,但又会卡住几秒)
方案 1:实时获取播放进度
首先声明这个方法只适用于旧版客户端(2.x),新版客户端的日志已加密,然后原文也已经寄了,只能通过缓存窥见一斑
省略一些过程,总之原文通过浏览日志文件发现有一个文件是存播放历史的(..\AppData\Local\NetEase\CloudMusic\webdata\file\history
)
所以我们可能就能够通过获取这个历史记录的最新记录来获得当前播放的歌曲。
当我们打开文件之后发现文件内容是这样的(已格式化):
[ |
这明显是json格式或者说类json格式。
然后我们发现这个列表的第一个字典元素就包含了我们当前播放的歌曲。那么这可能就是最终的解决方案了。
此外通过监控日志,还可以得到JSON中展示的歌曲的相关数据,包括歌曲所属专辑、歌曲名称、演唱者、时长、歌曲链接等信息。
此外还有:除了歌曲相关的信息,这段JSON还包括了一些评论、播放记录、特权和权限等信息。例如,每首歌曲都有一个评论线程ID、播放次数和评论数等;每个歌曲都有一个特权对象,其中包含了歌曲的ID、版本、价格等信息;同时,还有一些播放记录、时间戳、播放方式、音质等信息。
其中想要获得监控播放时间需要注意一下几个属性:
startlogtime、playedTime、lastTime、logDuration、time
这几个属性都与播放时间有关;
为了获取播放时长,需要对每个歌曲的 JSON 数据进行解析。以第一首歌曲"What You Know Bout Love"为例,其对应的 JSON 如下所示:
{ “track”: { …, “duration”: 160000, …, “playedTime”: 30.28, “lastTime”: 30.28, “logDuration”: 30.28, … }, … }
其中,“duration” 字段代表歌曲的总时长,单位为毫秒;“playedTime” 和 “lastTime” 字段代表已播放的时间和剩余的时间,单位为秒;“logDuration” 字段代表播放记录中记录的播放时长,单位为秒。
因此,我们可以通过访问这些字段来获取歌曲的播放时长。
实时读取文件
一个有效的方法是每隔一段时间查看文件的修改日期,如果修改日期改变的话才读取文件,然后再更新储存了当前播放歌曲的文件。
实际上有一个库叫做watchdog可以监听系统事件,其中也包括文件的修改,这样就不用我们重复造轮子了
import sys |
通过上述的代码,我们就可以监听当前目录下或者给定参数目录下的文件修改事件了。
获取history文件所在目录
我们可以通过以下表达式获取history文件所在的目录。
path = os.path.join(os.path.expanduser('~'), r'AppData\Local\Netease\CloudMusic\webdata\file') |
解析history文件
我们发现这个history文件一般都有200KB左右,当历史记录更多的时候可能更大。如果每次这个文件更改都解析整个json未免有点低效了,所以我们需要找个办法只解析这个json列表里面的第一个字典。
history文件中第一个字典长这样(history中整个文件都只有一行):
{'track': {'album': {'id': 36634131, |
我们可以发现里面每个字典的长度都是2000上下,如果保险起见那么为了能够解析到一个完整的字典,至少也要读取3000个字符的样子。
插一句:当年的数据里面竟然还带了歌曲的真实 URL
尝试使用正则
经过进一步考虑我们发现其实只需要读取前400个字符左右,然后用正则表达式 r’”name”:”(.*?)”‘来匹配就可以分别得到专辑名,艺术家和歌曲名了。
为了保险起见,我们读取前800个字符。
所以从history解析正在播放的歌曲的代码就是这样了:
pattern = re.compile(r'"name":"(.*?)"') |
但是经过一番测试之后发现有些歌会没有专辑名,导致上面的正则表达式只能匹配到一个。
还是决定用json解析
我们测试完了正则表达式之后发现并不是很可靠,于是还是退回到用json解析的方法来。
但是我们又遇到了一个新的问题。
history文件里的json结构大概是这样的:
[{"a":"...", "b":"...", ...}, {"c":"......", "d":"....", ....}, ...] |
这个列表里面的每个字典的长度是不定长的,我们需要想办法只把第一个字典的字符串送入json解析器里面,但是这有点复杂了。
经过搜索,我们发现了我们可以使用如下的代码来从字符串中解析第一个出现的完整json,忽略额外的字符串。
这里的raw_decode方法返回元组里第一个元素是解码器找到的第一个完整json,第二个元素是解析了的字符串长度。这个在流式传输的时候还挺有用的,这里我们就把它用作history文件的解析。
def get_playing(path): |
这里我们首先读取3200个字符,然后除去第一个字符送入json解析器,如果产生错误的话就再加500个字符,然后再次解析,尝试四次直到解析出来。
然后我们就可以从解析出来的字典里面获取歌曲名和艺术家列表了。
所以最后我们的程序就是这样了:
import os |
方案 2:实时获取歌词
原文:重磅!python获取同步输出的桌面网易云音乐歌词(内存偏移获取)_网易云音乐 dll进程注入-CSDN博客
再次首先声明,里面给出的代码只适用于某个版本,因为这个方法是直接抓内存,版本一变内存地址肯定也会变,不会抓的话等于没用(
首先,任何数据都在内存里,最直观的就是游戏数据,血量,金钱之类的,小时候应该很多人都用过金山游侠修改数据,就是那套原理,那么歌词作为文本,也是数据,为啥我不找找呢,于是搞了个CE打法,先显示英文的歌词,一直查找第一位字母的ASCII码,果然找到了,歌词不是什么敏感数据,一般也不会加密之类的,所以很典型很顺畅的找到了。
然后,网上教程说用OD去找偏移量,其实CE也可以搞定,一顿顺腾摸瓜,最最最重要的偏移量他来了,上图:
可以很清楚看到实时显示歌词的地址是怎么来的,从cloudmusic.dll的基址开始,经过三次偏移得道,当然最后一次是0,可以不用算。
原理知道了,愣着干嘛,一顿操作如虎,搞定了,这里,网易云音乐歌词的规则也被我看出来了,每个字,不管是英文还是中文,都占用两个bytes,中文用的是unicode编码,两个字符高低位反过来,如原来是\x34\x12就变成u1234,就行了,这里网上居然没找到现成的转换方式,网上找点有点的东西是真的费劲。。。于是自己手动写了坨屎山,转换了。英文就是\x00接ascii码,如果遇到连续两个\x00\x00视为词句歌词结束,现在规则全看透了,搞定。
这样就做好了,感觉干了件大事,网上没有相关资料代码,全靠自己摸索哦
#2022-10-15 by jd3096 vx:jd3096 |
这次真的是爽爆了,完全实时同步,随便切歌,拉进度,歌词永远同步。
不过没有彻底完善,比如遇到日文韩文等显示不了,英文强行被我转GBK,很占地方,这个看心情再说吧哈哈哈,懂原理了什么时候解决都不急。
方案 3:大道至简
省流:捕捉播放器窗口,扣掉背景颜色,裁剪一下就行了(