Python爬取某音乐网站内容

任务1,爬取网页歌曲信息

目标url:

https://www.kugou.com/yy/html/search.html#searchType=song&searchKeyWord=%E5%91%A8%E6%B7%B1

目标接口:

https://complexsearch.kugou.com/v2/search/song

难度:简单

使用的加密方法:md5

步骤:

  1. 尝试了 signature,dfid等值,都没有搜出来

  2. 通过搜索路径名search/song定位到一个地方,直接打断点,发现此时参数op已经包含了一些数据,但是没有signature
    在这里插入图片描述

  3. 再执行一下,到下面执行callback时,又有了signature,就开始从堆栈往回调
    在这里插入图片描述

  4. 往回调,看看哪里生成的signature
    在这里插入图片描述

  5. f这里,发现有signature值,不管是不是,先加上断点
    在这里插入图片描述

  6. 再往回找一下,c没有发现有价值的东西;再回一下,就发现回来了。那么signature一定是f这里生成的
    在这里插入图片描述
    在这里插入图片描述

  7. signature这里,是一串字符串执行d()函数,看起来像md5,试了一下,果然是md5,现在目标就是找到这串字符串了。
    在这里插入图片描述

  8. 值得注

Python爬取VIP音乐通常涉及网络数据抓取和处理,因为VIP内容可能受到版权保护,直接抓取可能会触犯法律。以下是使用Python进行普通音乐网站爬取的一般步骤: 1. **选择库**:使用Python的requests库发送HTTP请求获取网页内容,如BeautifulSoup或lxml库用于解析HTML。 2. **定位元素**:分析目标页面的HTML结构,找到包含音乐链接、歌词或者其他相关信息的特定CSS或XPath选择器。 3. **模拟登录或使用API**:如果网站有登录机制,可能需要先登录并获取cookies或者session来访问VIP内容。如果没有API接口,可能需要编写一些脚本来处理验证码或者反爬策略。 4. **数据抓取**:提取出想要的音乐下载链接、歌词等信息,并保存到本地文件或数据库。 5. **权限限制**:注意遵守网站的robots.txt规则以及版权法律法规,尊重原作者权益,避免滥用抓取工具。 6. **错误处理**:设置合理的请求间隔和异常处理机制,防止因频繁请求导致IP被封禁。 7. **存储和播放**:将抓取的数据按照需求格式整理好,然后可以利用第三方库如mutagen处理音频文件,或创建一个简单的Web应用来播放。 请注意,对于VIP音乐这类服务,很多网站都会采取措施防止直接爬取,实际操作前务必确认合法性和道德准则。如果你的目标是学习爬虫技术,建议从公开资源或非VIP内容开始练手。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ILUUSION_S

我在成都没饭吃😭

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值