python3爬虫基础二(urllib库)

本文详细介绍了Python3中的urllib库,包括urlopen函数用于网络请求,urlretrieve函数下载远程文件,URL编码解码的实用方法如urlencode和parse_qs,以及urlsplit和urlparse用于URL解析。此外,还提到了request函数如何添加请求头以应对反爬策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

urlib库

urllib库是Python中的一个最基本的网络请求库。可以模拟 浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。

urlopen函数

在python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面,url的基本使用:

from urllib import request

resp = request.urlopen('http://www.baidu.com')
print(resp.read())

urlopen函数参数详解:

urlopen函数原型

def urlopen(url, data=None,timeout=socket._GLOBAL_DEFAULT_TIMEOUT,
*,cafile=None,capath=None,cadefault=False,context=None)
  1. url:请求的url
  2. data:请求的data,如果设置了这个值,那么将会变成post请求
  3. 返回值:返回值是一个http.client.HTTPResponse对象,这个对象是一个类文件句柄对象

有read(size)、resdline、resdlines以及getcode等方法。

urlretrieve函数

这个函数可以将网页上的一个文件保存到本地。
代码为:
获取文件(以百度的index文件为例)

from urllib import request
request.urlretrieve("https://www.baidu.com/", '百度.html')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值