Python爬虫实战之二：requests-爬取亚马逊商品详情页面

最新推荐文章于 2025-06-13 01:10:19 发布

原创最新推荐文章于 2025-06-13 01:10:19 发布 · 6.7k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #数据挖掘

Python爬虫学习笔记专栏收录该内容

5 篇文章

订阅专栏

本文介绍了如何使用Python的requests库，通过添加请求头来模拟真实浏览器，成功爬取亚马逊商品详情页面。针对京东爬虫的升级，重点讲解了请求头的获取和设置，以及爬取过程中遇到的问题与解决方案。通过示例代码展示了爬虫模板的改进过程，实现了有效规避反爬机制的目标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本实战项目是中国大学MOOC国家精品课程《Python网络爬虫与信息提取》（by 嵩天北京理工大学）学习笔记。代码段均可在ide中运行by now(2021-11-29).

1.爬取目标

爬取亚马逊商品页面，比如这个商品。

相比上一篇爬取京东商品页面：

Python爬虫实战之一：requests-爬取京东商品详情页面_miracle2me的专栏-CSDN博客

本次爬取需要为请求连接添加请求头，避免第一步就被反爬机制给挡出来啦。

2.爬取链接

https://www.amazon.cn/dp/B07PCPQ7HX

3.技术路线

requests

4.全部代码及输出

原始爬虫模板

这里直接失败噢，亚马逊还是很细致的，不带请求头访问直接不给机会。

改良爬虫模板

import requests
# 全代码
url ='https://www.amazon.cn/dp/B07PCPQ7HX'
try:
    kv ={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3878.400 QQBrowser/10.8.4518.400'}
    r= requests.get(url,headers = kv)
    r.raise_for_status()
    r.encoding= r.apparent_encoding
    print(r.text[:1000])
except:
    print('爬取失败')

本案例技术实现关键在于请求头的添加：