Python爬虫【第二章】：从HTTP协议解析到豆瓣电影数据抓取实战

最新推荐文章于 2025-08-15 08:27:29 发布

程序员_CLUB

最新推荐文章于 2025-08-15 08:27:29 发布

阅读量886

点赞数 23

CC 4.0 BY-SA版权

分类专栏： Python入门到进阶文章标签： python 爬虫 http

本文链接：https://blog.csdn.net/2501_92499985/article/details/149091566

Python入门到进阶专栏收录该内容

58 篇文章

订阅专栏

- - 一、背景与需求‌
  - 二、 Web基础与HTTP协议核心解析‌
  - - 2.1 HTTP协议：数据交互的基石‌
    - 2.2 为何爬虫需理解HTTP协议？‌
  - 三、 Python爬虫实战：Requests库核心用法‌
  - - 3.1 安装与环境配置
    - ‌3.2 案例1：GET请求抓取豆瓣电影Top250‌
    - 3.3 案例2：POST请求模拟GitHub登录‌
  - 四、反爬策略与合规建议‌
  - 五、总结‌
  - - Python爬虫相关文章（推荐）

一、背景与需求‌

在数据驱动时代，网络爬虫成为获取公开数据的核心技术之一。无论是商业分析、舆情监控还是学术研究，理解Web基础与HTTP协议是构建高效爬虫的核心前提。本文以‌Python Requests库‌为工具，结合‌HTTP协议核心概念‌（GET/POST请求、状态码解析），通过‌豆瓣电影Top250抓取‌、‌模拟GitHub登录‌两大案例，手把手教你构建首个合规爬虫项目。

二、 Web基础与HTTP协议核心解析‌

2.1 HTTP协议：数据交互的基石‌

HTTP（HyperText Transfer Protocol）是客户端（浏览器/爬虫）与服务器通信的基础协议，核心特点包括：

无状态性‌：每次请求独立，服务器不保留会话信息（需Cookie/Session维护）。
请求方法‌：
- GET‌：从服务器获取资源（参数在URL中可见，如?page=1）。
- ‌POST‌：向服务器提交数据（参数在请求体中，适合敏感信息传输）。
状态码‌：服务器响应的关键标识：
- 2xx：成功（如200 OK）。
- 3xx：重定向（如301 永久跳转）。
- 4xx：客户端错误（如404 页面不存在）。
- 5xx：服务器错误（如502 网关错误）。

2.2 为何爬虫需理解HTTP协议？‌

‌精准构造请求‌：绕过反爬机制需模拟浏览器Header、Cookie等参数。
‌高效处理异常‌：根据状态码快速定位问题（如频繁请求触发429限速）。
‌数据安全合规‌：区分公开数据（GET）与敏感接口（POST），避免法律风险。

三、 Python爬虫实战：Requests库核心用法‌

3.1 安装与环境配置

pip install requests  # 安装Requests库

‌3.2 案例1：GET请求抓取豆瓣电影Top250‌

‌目标‌：获取电影名称、评分、短评数量并存储为CSV。

import requests
from bs4 import BeautifulSoup
import csv

url = "https://movie.douban.com/top250"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='info')

with open('douban_top250.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['电影名', '评分', '短评数'])
    for movie in movies:
        title = movie.find('span', class_='title').text
        rating = movie.find('span', class_='rating_num').text
        comment_num = movie.find('div', class_='star').find_all('span')[-1].text[:-3]
        writer.writerow([title, rating, comment_num])

‌技术要点‌：

‌User-Agent伪装‌：模拟浏览器标识，避免被识别为爬虫。
‌BeautifulSoup解析‌：通过XPath等价语法定位元素。
‌数据存储‌：使用CSV轻量级存储，兼容Excel分析。

3.3 案例2：POST请求模拟GitHub登录‌

‌目标‌：通过Session保持登录态，获取个人仓库列表。

login_url = "https://github.com/session"
repo_url = "https://github.com/your_profile?tab=repositories"

# 构造登录表单数据（需替换实际账号/密码）
data = {
    "login": "your_username",
    "password": "your_password",
    "authenticity_token": "提取页面中的Token"
}

with requests.Session() as s:
    # 首次访问登录页获取Token（需动态解析）
    login_page = s.get("https://github.com/login")
    soup = BeautifulSoup(login_page.text, 'html.parser')
    token = soup.find('input', {'name': 'authenticity_token'})['value']
    data['authenticity_token'] = token

    # 提交登录请求
    response = s.post(login_url, data=data, headers=headers)
    
    # 登录成功后访问仓库页
    repo_response = s.get(repo_url)
    print("仓库列表：", repo_response.text)

‌技术要点‌：

‌Session会话保持‌：自动管理Cookie，避免重复登录。
‌动态Token提取‌：应对CSRF反爬机制。
‌登录安全警示‌：示例仅作演示，实际需使用OAuth等合规授权方式。

四、反爬策略与合规建议‌

‌基础反爬应对‌：
- ‌频率控制‌：添加time.sleep(random.uniform(1,3))防止高频请求。
- ‌代理IP池‌：使用免费代理（如https://free-proxy-list.net）轮换IP。
‌合规边界‌：
- ‌Robots协议‌：检查/robots.txt（如豆瓣禁止爬取/top250）。
- ‌数据脱敏‌：避免存储用户隐私信息（如手机号、地址）。

五、总结‌

本文通过‌HTTP协议解析‌与‌Python Requests实战‌，完成了从理论到爬虫项目的跨越。关键收获包括：

‌协议理解‌：GET/POST差异、状态码分类直接影响爬虫逻辑设计。
‌工具掌握‌：Requests库+BeautifulSoup可实现90%静态页面抓取需求。
‌合规意识‌：数据采集需遵循Robots协议与《网络安全法》要求。

Python爬虫相关文章（推荐）


Python爬虫介绍：从原理到实战	Python爬虫【第一章】：从原理到实战，一文掌握数据采集核心技术