背景前摇(省流可以跳过这部分)
实习的时候厚脸皮请教了一位办公室负责做爬虫这块的老师,给我推荐了Scrapy框架。
我之前学过一些爬虫基础,但是用的是比较常见的BeautifulSoup和Request,于是得到Scrapy这个关键词后,先问了一下Kimi这些爬虫框架的区别和优劣:
可以看出,BeautifulSoup适合学校教授课程用的小项目,但遇到大型的爬虫还是需要技术老师推荐的Scrapy。
时间充裕的话可以先从BeautifulSoup入门学起来。
以前BeautifulSoup我学的时候B站有个UP讲得挺好的,手把手教实操,结果今天一看都找不到视频了,实在是可惜。所以这次我学习Scrapy就决定把看到的好教程和遇到的问题都记下来。
不过,很幸运的是,在写完这篇帖子的几天以后,我又刷到了这位up的视频:
【【爬虫策略】20分钟掌握beautifulsoup | 手把手新人向 | 大学生编程 | 程序员 | 爬虫基础入门-哔哩哔哩】 https://b23.tv/avKQhdV
【【保姆级】陪你看官方文档 | BeautifulSoup4 | 爬虫快速入门 | 手把手新人向 | 爬虫策略 | 豆瓣爬虫 | bs4-哔哩哔哩】 https://b23.tv/9nN5kUz
另外,关于BeautifulSoup我还发现了一个很好的入门帖子:
http://t.csdnimg.cn/9clGT
传送门
菜鸟教程
链接:https://www.runoob.com/w3cnote/scrapy-detail.html
点此进入菜鸟教程
这个算是我看过的教程帖子里面比较通俗易懂、简明扼要又流程规范的了,当然也不是十全十美,跟着步骤操作还是会遇到一些小问题。
1.安装库
这一步没啥问题,正常按着步骤装就是,我电脑环境算是复杂的,都没遇到奇怪的报错。但是有条件的话建议装个Anaconda,然后为Scrapy专门建一个虚拟环境,免得日后跟其他库不兼容的情况发生。
以下步骤展示的是有Anaconda的情况下安装虚拟环境,没有Anaconda的可以跳过这步。
从创建项目这一步开始,就可以和菜鸟教程介绍的流程第一步接上了。
菜鸟教程的第二步没什么问题,跟这做就行。
到了第三步这里,有一个地方需要做一点小改动。
运行到这一步,会发现一直报一个莫名其妙的错误:
AI的方法并没有什么卵用,可见这错误多半不是我们该背的锅。
解决方案也很简单——将写入模式改为 ‘wb+’ 就不会报错了
参考链接:https://zoyi14.smartapps.cn/pages/note/index?origin=share&slug=b53ac2effb85&_swebfr=1&_swebFromHost=baiduboxapp
简书大神的回答
然后继续往下走菜鸟教程,直到执行完爬虫,这个时候应该文件目录里会存在一个html文件。
但是,千万不要双击该html文件直接打开!!否则你会惊喜地发现——什么也没有。
(很奇怪我这次的文件居然打开有内容,之前尝试点开好几次都是白板……不知道触发了什么奇怪的buff)
如果确实遇到了白板也别害怕,用Pycharm或者VScode这类支持写程序的软件打开看看,你就会发现其实爬取是成功了的。
这一步能看见网页源代码的话,继续跟着菜鸟教程走就是了。
直到有一个步骤的命令有一个奇怪的$符号打头,询问Kimi后发现并没有什么意义,我猜或许是编写教程的人手误?不管这个符号,正常输入命令就行: