Python 爬虫被反爬？加 headers 的 User-Agent 指令，假装是浏览器

JAVA编程爱好者520

于 2025-08-11 00:16:00 发布

阅读量1.2k

点赞数 25

CC 4.0 BY-SA版权

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2503_92849134/article/details/150160589

本文聚焦 Python 爬虫遭遇反爬机制时的应对策略，核心介绍通过在请求头（headers）中添加 User-Agent 指令伪装成浏览器的方法。首先概述反爬的常见手段及 User-Agent 的作用，接着详细讲解 User-Agent 的格式、获取方式、在不同爬虫库（如 Requests、Scrapy）中的使用方法，还分享了动态切换 User-Agent 的技巧与注意事项，最后总结该方法在爬虫实践中的重要性及综合反爬思路，为开发者提供实用的爬虫优化方案，助力顺利获取网络数据。

在网络数据采集领域，Python 爬虫凭借高效、灵活的特性被广泛应用。但随着网站安全意识的提升，反爬机制日益严格，许多开发者在爬取数据时频频碰壁，其中因请求被识别为爬虫而遭拦截是常见问题。此时，通过设置请求头中的 User-Agent 指令，让爬虫伪装成浏览器发送请求，成为突破反爬限制的基础且有效的手段。本文将深入解析这一方法，帮助开发者掌握相关技巧，提升爬虫的稳定性与成功率。

一、反爬机制与 User-Agent 的关联

网站的反爬机制旨在保护自身数据安全与服务器稳定，常见手段包括检测请求来源、限制访问频率、设置验证码等。其中，识别请求是否来自爬虫是基础环节，而 User-Agent 在这一过程中扮演着关键角色。

User-Agent 是 HTTP 请求头的重要组成部分，它是一个字符串，用于标识发送请求的客户端（如浏览器、爬虫程序等）的信息，包括浏览器名称、版本、操作系统及版本等。当浏览器向网站服务器发送请求时，会自动携带包含自身信息的 User-Agent，服务器通过解析该信息可判断请求来源。若请求中没有 User-Agent，或其信息明显属于爬虫程序，服务器就可能拒绝响应，或返回错误数据，以此阻止爬虫获取信息。

二、User-Agent 的格式与常见类型

User-Agent 字符串有着特定的格式，通常由多个部分组成，各部分之间用空格分隔，主要包含浏览器标识、版本信息、操作系统信息等内容。其基本格式可表示为：浏览器名称 / 版本号 (操作系统信息；其他可选信息)。

常见的 User-Agent 类型丰富多样，以下为一些典型示例：

Chrome 浏览器（Windows 系统）：Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36

Firefox 浏览器（macOS 系统）：Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:109.0) Gecko/20100101 Firefox/115.0

Safari 浏览器（iOS 系统）：Mozilla/5.0 (iPhone; CPU iPhone OS 16_5 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.5 Mobile/15E148 Safari/604.1

了解这些常见类型有助于开发者选择合适的 User-Agent 进行伪装，使爬虫的请求更贴近真实浏览器的行为。

三、获取真实的 User-Agent

获取真实有效的 User-Agent 是进行伪装的前提，以下是几种常用方法：

浏览器查看：在常用浏览器中，通过开发者工具可直接获取当前浏览器的 User-Agent。以 Chrome 浏览器为例，打开浏览器后按 F12 打开开发者工具，切换到 “Network” 选项卡，刷新页面后选择任意一个请求，在 “Headers” 下的 “Request Headers” 中即可找到 “User-Agent” 字段及其对应值。

在线网站查询：网络上有许多专门提供 User-Agent 列表的网站，如 “User-Agent String.Com”“WhatIsMyBrowser.com” 等，这些网站会收集并展示各种浏览器、操作系统对应的 User-Agent，开发者可从中挑选合适的使用。

程序获取：通过编写简单的 Python 程序，利用浏览器驱动（如 Selenium）启动真实浏览器，然后获取其 User-Agent。例如，使用 Selenium 控制 Chrome 浏览器，通过driver.execute_script("return navigator.userAgent")语句即可获取当前浏览器的 User-Agent。

四、在不同爬虫库中设置 User-Agent

（一）Requests 库

Requests 是 Python 中常用的 HTTP 请求库，使用简单便捷。在 Requests 中设置 User-Agent 十分 straightforward，只需创建一个包含 User-Agent 的字典作为 headers 参数，传递给 get () 或 post () 方法即可。

示例代码如下：

在上述代码中，headers 字典中仅包含了 User-Agent，实际使用时，还可根据需要添加其他请求头字段，如 Accept、Referer 等，使请求更完整、更贴近浏览器行为。

（二）Scrapy 框架

Scrapy 是一个功能强大的爬虫框架，在 Scrapy 中设置 User-Agent 可通过多种方式实现：

在 settings.py 文件中配置：找到 Scrapy 项目的 settings.py 文件，添加或修改USER_AGENT字段，设置为所需的 User-Agent 字符串。例如：USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:109.0) Gecko/20100101 Firefox/115.0'。这种方式设置的 User-Agent 会应用于项目中所有的爬虫请求。

在爬虫文件中动态设置：在爬虫类的start_requests方法中，通过Request对象的headers参数设置 User-Agent。示例代码如下：

这种方式可针对不同的请求设置不同的 User-Agent，灵活性更高。

五、动态切换 User-Agent

固定使用一个 User-Agent 可能会被网站识别为异常请求，增加被反爬的风险。因此，动态切换 User-Agent 是提升爬虫隐蔽性的重要技巧。

实现动态切换 User-Agent 的方法主要有以下两种：

维护 User-Agent 列表：收集多个不同的 User-Agent，存储在列表中，每次发送请求时随机从中选择一个使用。以 Requests 库为例，示例代码如下：

使用第三方库：如fake_useragent库，它可以自动生成各种真实的 User-Agent。使用前需通过pip install fake_useragent安装该库，示例代码如下：

import requests

from fake_useragent import UserAgent

ua = UserAgent()

url = "https://www.example.com"

headers = {

"User-Agent": ua.random

}

response = requests.get(url, headers=headers)

print(response.text)

fake_useragent库会定期更新 User-Agent 列表，能有效保证获取到的 User-Agent 的新鲜度和有效性。

六、设置 User-Agent 的注意事项

真实性：选择的 User-Agent 应尽量真实有效，避免使用格式错误或不存在的 User-Agent，否则可能被网站轻易识别。

多样性：如前所述，避免长期使用单一的 User-Agent，应定期更换，增加爬虫的隐蔽性。

匹配性：User-Agent 应与请求中的其他信息相匹配，例如，若 User-Agent 标识为移动设备的浏览器，而请求中的其他参数却显示为桌面设备的特征，可能会引起网站的怀疑。

合规性：在使用爬虫获取数据时，需遵守网站的 robots 协议，尊重网站的版权和数据使用规则，不得进行恶意爬取。设置 User-Agent 只是为了正常获取允许公开的数据，而非用于非法行为。

七、总结

在 Python 爬虫实践中，遭遇反爬是常见现象，而通过在 headers 中添加 User-Agent 指令伪装成浏览器，是应对反爬的基础且有效的手段。本文详细介绍了 User-Agent 与反爬的关联、格式与常见类型、获取方法、在不同爬虫库中的设置方式、动态切换技巧及注意事项。

设置合适的 User-Agent 能有效降低爬虫被识别的概率，提升数据采集的成功率。但需注意，User-Agent 伪装只是反爬策略中的一环，在实际应用中，还需结合控制访问频率、使用代理 IP、处理验证码等多种方法，形成综合的反爬解决方案。同时，开发者应始终遵守网络爬虫的伦理和法律法规，合法、合规地进行数据采集，共同维护健康的网络环境。通过不断学习和实践，掌握更多反爬技巧，才能让 Python 爬虫在数据获取中发挥更大的作用。