前言
python爬虫学习笔记-1中,我介绍了最基本的刷新网页功能的爬虫,在这篇中,我要对这个功能再补充一些细节。
提示:以下是本篇文章正文内容,下面案例可供参考
一、设置访问参数
1.1 不打开浏览器显示
driver_options.add_argument('--headless')
1.2 禁止使用gpu为网页加速
driver_options.add_argument('--disable-gpu')
1.3 设置浏览器标识符
driver_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36')
浏览器标识符可以不使用我列出来的,网上找的都可以,在爬虫的使用过程中推荐加上标识符,防止网页服务器判定为爬虫,禁止你的ip访问
1.4 设置页面编码
driver_options.add_argument('lang=zh_CN.utf-8')
二、具体代码
2.1 引入库
代码如下(示例):
import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
driver_options = Options()
driver_options.add_argument('--headless') #不打开浏览器显示
driver_options.add_argument('--disable-gpu') #禁止使用gpu为网页加速
driver_options.add_argument('lang=zh_CN.utf-8')
#设置浏览器标识符
driver_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36')
# 创建Chrome实例 。
driver = webdriver.Chrome(options=driver_options) # 需要 下载 对应浏览器 驱动到 python 安装目录
try:
Test='https://www.baidu.com' #测试链接,此处可以换成任意网址
print("已创建实例")
driver.get(Test)
driver.get(Test) # 打开浏览器,并前往链接
except Exception as e:
print(e)
for i in range(1000): # 刷新次数
driver.refresh() # 刷新网页
time.sleep(5) # 五秒一次
print("freshing---")
总结
本篇是对上篇的补充,使得爬虫对网页的访问更加规范