anaconda安装scrapy_爬虫实例:Scrapy爬取虎扑论坛(上)

文章介绍了Scrapy框架,它能自动完成爬虫中部分相同代码的工作。安装Scrapy时,用pip安装依赖复杂,推荐用conda。可先安装miniconda并添加环境变量,再用conda install scrapy指令安装;用anaconda的无需装miniconda。还介绍了Scrapy创建项目及主文件的基本指令。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    当你学久了爬虫之后,你会发现有好大大大大大大大大大一部分是相同的代码,仅仅是解析网页和保存网页不一样,其他部分基本就是这样那样的,那能不能有一个工具自动给我们完成这个工作呢?没错,Scrapy框架就能帮你实现ebc2f19c0714c36e95b917719d9ce9ad.png

/1.scrapy的安装/

    如果你没看过这篇文章,你可能会用pip去安装,但是根据我的经验,你如果用他安装的话,你会感觉:

      efb36b654fcbcd9f490fcf036dfe1c8a.png

    为毛奈?它的依赖库有数十个,有的要用源码安装,有的依赖库还有依赖库,有的依赖库的依赖库还还还有依赖库:

  bcdf6878086b81b947db2d03c964619b.png

    如果你不嫌他烦的话,可以参考这篇:        https://www.cnblogs.com/tatamizzz/p/5588047.html

    如果你嫌他烦的话,那么请继续往下看:

    最简单的方法只需要2步:

  1. 安装miniconda,https://docs.conda.io/en/latest/miniconda.html安装即可,记得添加环境变量。

  2. 进入cmd,使用conda install scrapy指令自动安装依赖包和主要包,怎么样,是不是贼棒呢?1821f84880cafd22fe323fb2a6310b32.png

    顺便提一句,anaconda也自带conda,所以用anaconda安装python的盆友们,就不用做第一步咯!

    在cmd中输入scrapy,如果出现类似下面的回应,就表明你安装成功了:

cce3d359d242e4ce972fbeda6c277b7e.png

/2.scrapy基本指令/

    我们用scrapy来爬虫,就需要建立一个项目,在scrapy中,有许多帮我们快捷写爬虫的指令,就像下面这个:

cd desktopscrapy startproject hupu

    在命令行里分别输入这两条指令,你会发现桌面多了一个文件夹:

25111fc4c6b7c1d5c9262273ab4af79d.png

    这就是项目主文件夹了,它的结构是这样的:

>>> for x in os.walk(r'C:\Users\Administrator.PC-20181016YSMN\Desktop\hupu'):  print(x)  ('C:\\Users\\Administrator.PC-20181016YSMN\\Desktop\\hupu', ['hupu'], ['scrapy.cfg'])('C:\\Users\\Administrator.PC-20181016YSMN\\Desktop\\hupu\\hupu', ['spiders', '__pycache__'], ['items.py', 'middlewares.py', 'pipelines.py', 'settings.py', '__init__.py'])('C:\\Users\\Administrator.PC-20181016YSMN\\Desktop\\hupu\\hupu\\spiders', ['__pycache__'], ['hupu.html', 'hupucrawl.py', '__init__.py'])('C:\\Users\\Administrator.PC-20181016YSMN\\Desktop\\hupu\\hupu\\spiders\\__pycache__', [], ['hupucrawl.cpython-37.pyc', '__init__.cpython-37.pyc'])('C:\\Users\\Administrator.PC-20181016YSMN\\Desktop\\hupu\\hupu\\__pycache__', [], ['settings.cpython-37.pyc', '__init__.cpython-37.pyc'])>>>

    但是,这里面还没有主文件。

    我们可以选择用指令创建主文件或手动创建主文件。

    手动创建需要到hupu\hupu\spiders目录下创建hupucrawl.py文件,内容如下:

# -*- coding: utf-8 -*-import scrapyclass HupucrawlSpider(scrapy.Spider):    name = 'hupucrawl'    allowed_domains = ['bbs.hupu.com']    start_urls = ['https://bbs.hupu.com/']    def parse(self, response):        pass  

    自动创建需要分别执行如下指令:

cd hupu/hupu/spidersscrapy genspider hupucrawl bbs.hupu.com

    便自动生成了如下文件:

# -*- coding: utf-8 -*-import scrapyclass HupucrawlSpider(scrapy.Spider):    name = 'hupucrawl'    allowed_domains = ['bbs.hupu.com']    start_urls = ['http://bbs.hupu.com/']    def parse(self, response):        pass 

今天你学废了吗?5200e7841bb5deebec0171169e67642a.png

b774034f5ae74d988931795f8ea82d44.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值