『python爬虫』24. selenium之无头浏览器-后台静默运行（保姆级图文）

最新推荐文章于 2025-06-06 15:44:41 发布

发现你走远了

最新推荐文章于 2025-06-06 15:44:41 发布

阅读量5k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： # python爬虫文章标签： python 爬虫 selenium

本文链接：https://blog.csdn.net/u011027547/article/details/129783868

python爬虫专栏收录该内容

52 篇文章

订阅专栏

文章介绍了如何利用无头浏览器提升selenium爬虫的效率，通过分析网页结构抓取艺恩数据网站的年份票房数据，提供了完整的Python代码示例，展示了选择下拉框选项并获取表格内容的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 无头浏览器

一般性的selenium会打开浏览器页面，展示图形化页面给我们看，我们都应该知道命令行式的程序肯定比这种渲染图形化界面的程序快速高效。为了一定程度上缓解selenium慢的问题，我们可以采用无头浏览器。
无头浏览器值。“无头浏览器”的“无头”元素与它们确实缺少一个关键元素（即图形用户界面（GUI））有关。这使得我们可以做到后台的静默运行中完成爬虫。
优点：快捷高效
缺点：编写代码和调试更加困难（没有图形化界面的痛苦）
适用场景：已经确保能够成功爬取数据，为了提高效率，可以使用无头浏览器。

2. 分析被爬取数据的网页结构

艺恩数据
https://www.endata.com.cn/BoxOffice/BO/Year/index.html

年份下拉框select元素的xpath //*[@id="OptionDate"]定位
借助 select支持库将select元素转为select对象

sel = Select(sel_el)# 对元素进行包装, 包装成下拉菜单对象

抓取每个年份的数据table xpath定位 //*[@id="TableList"]/table

在这里插入图片描述
i就是每一个下拉框选项的索引位置把5换成len(sel.options)表示遍历所有年份这里是5表示最近4年【0，5）

# for i in range(len(sel.options)):#所有年份的数据
for i in range(5):#最近【0，5）年的数据 也就是 [2023-2019]
    sel.select_by_index(i)  # 遍历每一年，按照索引进行切换
    time.sleep(2)
    table = web.find_element_by_xpath('//*[@id="TableList"]/table')
    print(table.text)  # 打印所有文本信息
    print("===================================")

3. 完整代码

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.select import Select
import time


# 创建一个参数对象，用来控制chrome以无界面模式打开（可以视为固定写法）
opt = Options()#新建参数对象
opt.add_argument("--headless")#无头
opt.add_argument("--disbale-gpu")#无gpu图形化界面

web = Chrome(options=opt)  # 把参数配置设置到浏览器中

web.get("https://www.endata.com.cn/BoxOffice/BO/Year/index.html")

time.sleep(2)

sel_el = web.find_element_by_xpath('//*[@id="OptionDate"]')# 定位到下拉列表

sel = Select(sel_el)# 对元素进行包装, 包装成下拉菜单对象
# print(sel.options) #打印所有的下拉选项
# 让浏览器进行调整选项
for i in range(5):  # i就是每一个下拉框选项的索引位置  把5换成len(sel.options)表示遍历所有年份 这里是5表示最近4年【0，5）
    sel.select_by_index(i)  # 遍历每一年，按照索引进行切换
    time.sleep(2)
    table = web.find_element_by_xpath('//*[@id="TableList"]/table')
    print(table.text)  # 打印所有文本信息
    print("===================================")

print("运行完毕.  ")


# 拿到页面代码Elements(经过数据加载以及js执行之后的结果的html内容)
print(web.page_source)

web.close()#注意关闭连接，如果不关闭可能会导致有多个连接，进而容易封禁
print("关闭连接")