Scrapy-Splash爬取淘宝排行榜（三）

最新推荐文章于 2025-05-01 00:58:44 发布

原创

最新推荐文章于 2025-05-01 00:58:44 发布 · 4.4k 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍如何使用Scrapy和Splash爬取淘宝排行榜。首先从各大类页面开始，提取所有子类URL，然后利用LxmlLinkExtractor找出有销售热门榜的URL。接着，通过XPath提取所需信息，并将数据传递给pipeline进行处理。完整项目源码链接已提供。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

五写spider

1.知道了要爬取的内容，所以，我们首先在start_urls中设置如下：

    start_urls=['https://top.taobao.com/index.php?topId=TR_FS&leafId=50010850','https://top.taobao.com/index.php?topId=TR_SM&leafId=1101','https://top.taobao.com/index.php?topId=TR_HZP&leafId=121454013','https://top.taobao.com/index.php?topId=TR_MY&leafId=50013618','https://top.taobao.com/index.php?topId=TR_SP&leafId=50008055','https://top.taobao.com/index.php?topId=TR_WT&leafId=50014075','https://top.taobao.com/index.php?topId=TR_JJ&leafId=50016434','https://top.taobao.com/index.php?topId=TR_ZH&leafId=50011975']

即从每一个大类的页面开始，提出这个页面所含有的所有子类的url。