
沉得住气学爬虫!
文章平均质量分 79
学习爬虫需要沉得住气,不要乱爬机构网站!
试试即逝世,那不是有勇气,那是傻憨憨,懂吗?
学习技术,用技术带来正能量,可以分析其他数据比如竞赛,一些开源学习排行榜,热点事件等等
雷学委
高级技术专家带路,事半功倍!多语言爱好者,目前主业大数据。做过创业项目/技术演讲/系统架构/内部培训。过来学习技术吧!
其他:
上海DevOpsDays技术讲师,发表主题演讲
华为云圆桌特邀嘉宾
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
❤️不到100行把流式热榜截屏合成一张?爬虫终极秘诀【建议收藏】❤️
爬虫如何应对流式加载页面 前篇学委弄了一篇把网站拍照留存,发现截屏的页面是一个流式页面,怎么办? 所谓的流式加载的页面,页面高度是不断变长的,这种页面无法一次加载就获取到整个页面的真实高度! 身边有没有哪些流式加载的页面呢? 比如 CSDN的热榜 没跑了。 经常冲榜的朋友就知道,打开热榜,发现就几条Top 5,需要浏览器往下拉,才会继续动态加载更多内容出来。 那么问题来了,这个滚动操作怎么实现呢? ...原创 2021-08-07 13:14:59 · 1180 阅读 · 60 评论 -
❤️爬虫截热榜长屏不方便阅读!推荐dominate直接生成报告❤️
之前学委之前写了一篇热榜长榜单爬虫截屏的文章和 快速优雅HTML报表开发 这次玩大一点,我们把热榜直接爬下来存为报告查看。 先看看效果: 搞起来! 第一步 生成报告 没听错,爬虫先放着,无中生有,随便搞点数据先把报告生成了。 保存下面代码为report.py,后面会用这个名字引入。 from dominate.tags import * """ 雷学委特制的生成html报告的函数 """ def generate_html(tuples): _html = html() _head =原创 2021-08-13 09:16:54 · 903 阅读 · 56 评论 -
学会爬虫不用再收藏了,直接把网站拍照留念
前一篇文章防止恶意刷接口 给网站加验证码很多人评论,说验证码可以破解。 学委震惊了! 我们搞系统设计和开发加入类似验证码等技术,主要防止恶意。 如果有人想要暴力智能破解,通过社会工程加上一些黑客技术,估计就是时间问题。但是我们会了技术,必须正直有良心,不能啥都去干!!! 这次先分享一个截屏网站的。后面再写代码攻破自己的网站。 本文主要讨论简短能入门的截屏代码,并配置把它跑起来! 举个例子:为了学习热榜,我把热榜截图保留下来以后学习 第一步安装selenium pip install selenium 不清原创 2021-08-01 15:52:33 · 3435 阅读 · 36 评论