scrapy 爬网站显示 Filtered offsite request to 错误

原创于 2018-09-12 00:39:49 发布 · 820 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy

爬虫专栏收录该内容

33 篇文章

订阅专栏

本文探讨了Scrapy爬虫中遇到的过滤机制问题，即请求的URL与allow_domain设置冲突导致被过滤的情况，并提供了停用过滤功能的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

查看日志发现报

2018-09-12 00:27:58 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'book.douban.com': <GET https://book.douban.com/top250?start=25>

官方对这个的解释，是你要request的地址和allow_domain里面的冲突，从而被过滤掉。可以停用过滤功能。

yield Request(url, callback=self.parse_item, dont_filter=True)

scrapy 爬网站 显示 Filtered offsite request to 错误

scrapy 爬网站显示 Filtered offsite request to 错误