pyppeteer无头浏览器防止被检测的方法

最新推荐文章于 2024-10-14 08:44:21 发布

黑匣子的秘密

最新推荐文章于 2024-10-14 08:44:21 发布

阅读量4.9k

点赞数 2

CC 4.0 BY-SA版权

文章标签：爬虫前端 http python

本文链接：https://blog.csdn.net/zky961025/article/details/123255441

该博客介绍了如何在Python中使用Pyppeteer库配合Stealth模块，以无头浏览器的方式进行网页爬取，同时避免被目标网站识别并阻拦。通过设置headless参数为True并应用Stealth伪装成正常浏览器，可以实现在不打开实际浏览器窗口的情况下完成爬取任务，有效解决了无头浏览器被检测的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了在进行爬虫的过程中不每访问一次请求就打开新的页面，使用无头浏览器的方式，但是无头浏览器会被想要爬取的网址识别并阻拦。当设置headless=False时就可以通过识别。

通过查阅发现，网站能够通过检测插件，语言等发现无头浏览器，因此使用stealth来解决这个问题，假装是正常浏览器在访问。

# -*- coding: UTF-8 -*-
import asyncio

from pyppeteer import launch
from pyppeteer import launcher

from pyppeteer_stealth import stealth



async def pyChrome():
    if '--enable-automation' in launcher.DEFAULT_ARGS:
        launcher.DEFAULT_ARGS.remove("--enable-automation")
    browser = await launch(
        headless=True, dumpio=True, userDataDir=r'./text',
        )
    web = await browser.createIncognitoBrowserContext()
    page1 = await web.newPage()
# 重点部分，里面封装了能够防止识别的方法，即便设置headless=True也可以实现不打开浏览器就完成打开浏览器时的功能
    await stealth(page1)     
    await page1.goto(con_url, {'waitUntil': ['load', 'networkidle0']})
    await page1.close()
    await page.close()
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(pyChrome())