【爬虫入门】获取响应内容(即读取网页html的源码)

1024码字猿

已于 2022-01-23 21:59:28 修改

阅读量2.9k

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫 html chrome python

于 2022-01-15 15:03:39 首次发布

本文链接：https://blog.csdn.net/weixin_40458518/article/details/122373541

本文介绍了网络爬虫获取网页数据的基本流程，包括模拟浏览器发送请求和获取响应内容，重点讲解了使用requests.get（无标注解析器和有标注解析器）, urllib.request.urlopen及urllib3四种方法来获取HTML源码。" 135662036,12827524,鸿蒙HarmonyOS开发：Java实现智能穿戴多样化数据显示,"['鸿蒙开发', 'Java', '开发语言', '智能穿戴', '多样化数据显示']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在现实应用中，网络爬虫获取网页数据的流程如下：
（1）模拟浏览器发送请求
（2）获取响应内容（获取网页）：即获取html、css、json、图片、音频、视频等类型信息
（3）解析内容（提取信息）：正则表达式、第三库解析库（Beautifulsoup、pyquery等）
（4）保存数据：保存到数据库（mysql、mongdb、redis等）或txt、csv、json、xml…格式的文件

注意：本编内容主要是上述的（1）和（2）步骤。

方法一：requests.get 无标注解析器

# python3.6

import requests

url = "https://www.163.com"
headers = {
   
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.100.4811.0 Safari/537.36"
}
res = requests.get(url, headers=headers)
str_content = res.text
byte_content = res.content
print(type

最低0.47元/天解锁文章