为什么用yield scrapy.Request()调用方法得不到数据，反倒用requests可以

`yield scrapy.Request()`是用于Scrapy框架中发送请求的，它不会直接返回数据。相反，它会将请求发送到Scrapy的引擎中，并且等待引擎返回响应。因此，如果您只使用 `yield scrapy.Request()` 调用方法，您将无法得到数据。要获取数据，您需要在Scrapy的回调函数中处理响应。回调函数将在引擎接收到响应后自动调用。在回调函数中，您可以使用Scrapy提供的各种方法来提取数据。另一方面，`requests`是一个Python库，用于发送HTTP请求并获取响应。它可以直接返回响应，因此您可以在使用`requests`发送请求后立即获取数据。总结来说，`yield scrapy.Request()` 用于Scrapy框架中发送请求，需要在回调函数中处理响应获取数据，而 `requests` 是一个独立的Python库，可以直接返回响应。

def start_requests(self): yield scrapy.Request( url=self.page_url, method="POST", headers=self.headers, body=self.body.format(self.tp[self.tp_index], self.page_current, self.start_date, self.end_date), callback=self.parse )

这是一个 Python Scrapy 爬虫程序的 start_requests 方法，用于发送 POST 请求。其中，self.page_url 是请求的 URL 地址，self.headers 是请求的头部信息，self.body 是请求的主体内容，包含格式化字符串，用于传入参数。最后一个参数 callback=self.parse 是请求完成后的回调函数，当请求完成后，会调用该函数进行数据处理。

scrapy 只能scrapy.Request访问网址吗

### Scrapy 使用 `scrapy.Request` 访问网址及其替代方案在Scrapy框架内，通常使用`scrapy.Request`对象发起HTTP请求并抓取网页数据[^1]。此方式提供了高度灵活性和功能集成，比如可以方便地设置回调函数处理响应、传递元数据等。然而，除了直接创建`scrapy.Request`实例之外，还存在一些间接的方法用于发出网络请求： #### 利用Spider类中的start_requests方法默认情况下，当定义了`start_urls`属性时，Scrapy会自动调用`start_requests()`方法为列表里的每一个URL生成一个`Request`对象。开发者可以通过重写该方法来自定义如何构建初始请求，虽然最终还是返回的是`scrapy.Request`类型的对象，但这提供了一种更灵活的方式去初始化爬虫流程。 ```python class MySpider(scrapy.Spider): name = "my_spider" def start_requests(self): urls = [ 'http://example.com/1', 'http://example.com/2' ] for url in urls: yield scrapy.Request(url=url, callback=self.parse) ``` #### 调用Downloader Middleware实现自定义逻辑通过编写中间件可以在不改变原有代码结构的前提下修改或增强发送出去的请求行为。例如，在上述提到的例子中添加代理支持就是借助于中间件完成的。这种方式允许对所有即将发出的请求应用统一策略而无需逐一手动配置每个单独的`scrapy.Request`实例[^2]。尽管如此，值得注意的是无论采取何种途径，实际执行层面仍然依赖于`scrapy.Request`作为基础单元来进行具体的HTTP交互操作。因此可以说，虽然有多种手段可以帮助简化某些场景下的编程工作量或是满足特定需求，但在最根本层次上确实主要是围绕着这个核心组件展开工作的。

阅读全文

为什么用yield scrapy.Request()调用方法得不到数据，反倒用requests可以

def start_requests(self): yield scrapy.Request( url=self.page_url, method="POST", headers=self.headers, body=self.body.format(self.tp[self.tp_index], self.page_current, self.start_date, self.end_date), callback=self.parse )

scrapy 只能scrapy.Request访问网址吗

相关推荐

scrapy作为数据获取的框架.爬取豆ban网

py-scratch 使用requests抓取数据

scrapy1.6.pdf

requests-html与Scrapy对比

Scrapy和request的区别

scrapy结合requests

scrapy调用js

scrapy 重写start_request

scrapy如何将response.follow加入到中间件里

scrapy 集成kafka 作为数据源报错TypeError: process_start_requests() takes 1 positional argument but 3 were given

scrapy框架如何爬取动态数据

scrapy重写起始请求parse方法

scrapy的第二个parse无法被调用

大家在看

.NET frxamework v2.0 64位

AD7768 Verilog Driver.zip

Simulink中使用Simscape创建定制车辆模型的一组模板_matlab

115网盘 v4.0.0.55 官方正式免费版.zip

Atheros art 工具使用指南

最新推荐

工程项目管理的高效团队建设与管理.docx

ASP.NET新闻管理系统：用户管理与内容发布功能

【实战派量化投资秘籍】：Pair Trading策略全方位解析

fpga中保持时间建立时间时序约束

Notepad2: 高效替代XP系统记事本的多功能文本编辑器

【mPower1203驱动故障全攻略】：排除新手疑难杂症，提升部署效率

keil5打不开

远程进程注入技术详解：DLL注入的实现步骤

【驱动安装背后的故事】：mPower1203机制深度剖析及优化技巧

tensorflow2.5.0 linux-aarch64.whl