
爬虫
靠谱的人
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫学习一:bs下载图片+进度条
bs下载图片+进度条刚开始学习爬虫,当然是从简单地开始,没有什么比爬点美女图片更能提起兴趣的了,这次要爬的网站是彼岸网,不废话,上代码import requestsfrom bs4 import BeautifulSoupfrom tqdm import tqdm# 通过url解析获得网页内容def parse_html(url): header = { 'User - Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)原创 2022-01-16 23:51:59 · 506 阅读 · 0 评论 -
多线程学习 遇到问题(二) 资源抢夺
解决多线程资源争夺的方法很多,队列是最好的方法之一,下面的例子很好的演示了队列在多线程中的应用,使用的生产者消费者模型,有时间写成面向对象的方式。互斥锁等也可以解决此类情况,但效率没有队列高。import requestsfrom lxml import etreefrom urllib import requestfrom queue import Queueimport threa...原创 2020-02-22 22:18:45 · 741 阅读 · 0 评论 -
多线程学习 遇到问题(一)基础代码
2020农历新年前后,一场新型肺炎病毒席卷全国,截止今天感染人数74000余人,响应号召在家呆了月余没有出门。决定重新学习多线程,更加深入的理解多线程,今天尝试一下就遇到一个问题,困扰两天,一经解决豁然开朗,算是一个小心得吧,那就是线程包裹的是方法,一个方法解决一个问题,把所有的相关代码都写到方法里边,这样爬虫才能起到作用,如果有代码留在外边,则不起作用。表达能力有限,看代码:爬取不羞涩图片网站...原创 2020-02-20 14:07:53 · 209 阅读 · 0 评论 -
BeautifulSoup 学习笔记
BeautifulSoup学习笔记1.基础介绍GitHub地址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.按照gi...原创 2020-02-15 22:55:53 · 313 阅读 · 0 评论 -
requests学习笔记
requests1.requests的作用2.发送简单的请求3.下载图片4.发送带header的请求5.发送带参数的请求6.requests深入:发送post请求7.使用代理8.cookie和session9.案例,登陆人人网...原创 2020-02-14 22:00:13 · 880 阅读 · 0 评论 -
千千音乐盒 尝试爬付费歌曲(失败经验)
千千音乐盒 尝试爬付费歌曲(失败经验)看到别的老师的帖子,说千千音乐盒能爬付费歌曲,例子是下载周杰伦的歌曲,仔细看了老师的代码,发现简单使用一串数字构成的歌曲id作为url的变量就可以爬到,上机实验以后,发现。。。没有那么简单。。。可能是网站更新了。。。好吧,不信邪,自己动手找找看网站用jsp编写,按老师方法,直接把周杰伦音乐页面代码爬下来,里边有歌曲代码def vipsong_id(s...原创 2019-08-16 17:11:24 · 485 阅读 · 0 评论