用playwright实现访问目标网页并截图,提取重要数据处理后一起推送至钉钉
开端
上司几个月之前给我推荐了个playwright,是微软开发的web自动化测试框架,开源的,觉得未来肯定不错。然后我看了一下确实不错,对比LoadRunner和Selenium用起来更轻巧灵活,带的浏览器驱动都是最新的,而且支持python所以马上看文档上手起来,python版playwrigt文档
实践
简单写下逻辑过程,现在做加密货币数据分析的网站很火,正好当时欧科云链的oklink他会分析比特币链上地址的大额转账并会显示出来,如下
然后我想让这个信息每次更新后能够最快速的通过钉钉推送给我,实现如下这种效果,@人并图文展示。
首先钉钉机器人是支持Markdown信息推送的,所以这里我们主要讲一下playwright如何获取有效信息,并将有效信息保存好在本地或传到图床。涉及如下几个主要的playwright的api,具体的可以上https://playwright.dev/python/docs/api查看
1、保证页面信息有效。
#1、头文件传递语言信息过去,保证加载的是中文页面
browser.new_context(viewport={"width":1300,"height":1080},extra_http_headers={'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2'})
#2、通过验证关键元素已加载,确保页面加载完毕才下一步
page.text_content('div.more-text')
#也可用
page.waitForSelector("text=xxx")
#3、搜索页面的符合要求的内容,查找所有转账信息和验证时间是否最新。
page.query_selector_all('div.large-container-box-item-right-title')
page.query_selector('div.large-container-box-item-left')
2、保存有效信息。
# 1、截图,你可以截取需要的位置
page.screenshot(path=f'example-{playwright.firefox.name}.png',clip={"x":45,"y":170,"width":500,"height":640})
总结
其实真的做起来也挺复杂的,图床我就找了好几个试了,不过图片页面好像都会二次加载,导致钉钉一直使用的是缩略图不清晰,最后还是用的一个我们公司一个原有传图片的api实现的。
这里只是主要介绍了下playwright实现的思路,真的要用起来其他的库肯定也要有。
对了,目前想用欧科云链的数据更简单了,有官方的api文档了,不用和我之前一样还要数据校验处理。
🥰如果喜欢你也可以请我喝白开水🥰
打赏 / Donate
