【Python学习笔记】菜鸟教程Scrapy案例 + B站amazon案例视频

本文链接：https://blog.csdn.net/bailichen800/article/details/140199581

背景前摇（省流可以跳过这部分）

实习的时候厚脸皮请教了一位办公室负责做爬虫这块的老师，给我推荐了Scrapy框架。
我之前学过一些爬虫基础，但是用的是比较常见的BeautifulSoup和Request，于是得到Scrapy这个关键词后，先问了一下Kimi这些爬虫框架的区别和优劣：
以上内容由Kimi生成（非广告）
可以看出，BeautifulSoup适合学校教授课程用的小项目，但遇到大型的爬虫还是需要技术老师推荐的Scrapy。
时间充裕的话可以先从BeautifulSoup入门学起来。
以前BeautifulSoup我学的时候B站有个UP讲得挺好的，手把手教实操，结果今天一看都找不到视频了，实在是可惜。所以这次我学习Scrapy就决定把看到的好教程和遇到的问题都记下来。
不过，很幸运的是，在写完这篇帖子的几天以后，我又刷到了这位up的视频：
【【爬虫策略】20分钟掌握beautifulsoup | 手把手新人向 | 大学生编程 | 程序员 | 爬虫基础入门-哔哩哔哩】 https://b23.tv/avKQhdV
【【保姆级】陪你看官方文档 | BeautifulSoup4 | 爬虫快速入门 | 手把手新人向 | 爬虫策略 | 豆瓣爬虫 | bs4-哔哩哔哩】 https://b23.tv/9nN5kUz
另外，关于BeautifulSoup我还发现了一个很好的入门帖子：
http://t.csdnimg.cn/9clGT
传送门

菜鸟教程

链接：https://www.runoob.com/w3cnote/scrapy-detail.html
点此进入菜鸟教程
这个算是我看过的教程帖子里面比较通俗易懂、简明扼要又流程规范的了，当然也不是十全十美，跟着步骤操作还是会遇到一些小问题。

1.安装库

在这里插入图片描述

这一步没啥问题，正常按着步骤装就是，我电脑环境算是复杂的，都没遇到奇怪的报错。但是有条件的话建议装个Anaconda，然后为Scrapy专门建一个虚拟环境，免得日后跟其他库不兼容的情况发生。
以下步骤展示的是有Anaconda的情况下安装虚拟环境，没有Anaconda的可以跳过这步。
在这里插入图片描述

从创建项目这一步开始，就可以和菜鸟教程介绍的流程第一步接上了。
在这里插入图片描述

菜鸟教程的第二步没什么问题，跟这做就行。
在这里插入图片描述

到了第三步这里，有一个地方需要做一点小改动。在这里插入图片描述

运行到这一步，会发现一直报一个莫名其妙的错误：
在这里插入图片描述

AI的方法并没有什么卵用，可见这错误多半不是我们该背的锅。

解决方案也很简单——将写入模式改为 ‘wb+’ 就不会报错了

参考链接：https://zoyi14.smartapps.cn/pages/note/index?origin=share&slug=b53ac2effb85&_swebfr=1&_swebFromHost=baiduboxapp
简书大神的回答
在这里插入图片描述

然后继续往下走菜鸟教程，直到执行完爬虫，这个时候应该文件目录里会存在一个html文件。
在这里插入图片描述

但是，千万不要双击该html文件直接打开！！否则你会惊喜地发现——什么也没有。
（很奇怪我这次的文件居然打开有内容，之前尝试点开好几次都是白板……不知道触发了什么奇怪的buff）
在这里插入图片描述
如果确实遇到了白板也别害怕，用Pycharm或者VScode这类支持写程序的软件打开看看，你就会发现其实爬取是成功了的。
这一步能看见网页源代码的话，继续跟着菜鸟教程走就是了。