python爬虫学习笔记-2

这篇博客是python爬虫学习笔记的第二部分,详细讲解了如何设置访问参数,包括不打开浏览器显示、禁止GPU加速、设置浏览器标识符和页面编码,以使爬虫访问更规范。此外,还提及了代码中引入库的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

python爬虫学习笔记-1中,我介绍了最基本的刷新网页功能的爬虫,在这篇中,我要对这个功能再补充一些细节。


提示:以下是本篇文章正文内容,下面案例可供参考

一、设置访问参数

1.1 不打开浏览器显示

driver_options.add_argument('--headless') 

1.2 禁止使用gpu为网页加速

driver_options.add_argument('--disable-gpu')

1.3 设置浏览器标识符

driver_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36')

浏览器标识符可以不使用我列出来的,网上找的都可以,在爬虫的使用过程中推荐加上标识符,防止网页服务器判定为爬虫,禁止你的ip访问

1.4 设置页面编码

driver_options.add_argument('lang=zh_CN.utf-8')

二、具体代码

2.1 引入库

代码如下(示例):

import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

driver_options = Options()
driver_options.add_argument('--headless') #不打开浏览器显示
driver_options.add_argument('--disable-gpu') #禁止使用gpu为网页加速
driver_options.add_argument('lang=zh_CN.utf-8')
#设置浏览器标识符
driver_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36')
# 创建Chrome实例 。
driver = webdriver.Chrome(options=driver_options)  # 需要 下载 对应浏览器 驱动到 python 安装目录
try:
    Test='https://www.baidu.com' #测试链接,此处可以换成任意网址
    print("已创建实例")
    driver.get(Test)
    driver.get(Test)  # 打开浏览器,并前往链接
except Exception as e:
    print(e)

for i in range(1000): # 刷新次数
    driver.refresh()  # 刷新网页
    time.sleep(5) # 五秒一次
    print("freshing---")




总结

本篇是对上篇的补充,使得爬虫对网页的访问更加规范

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值