【免费】python爬虫-爬取博客园博客信息（含源码）资源-CSDN下载

共11个文件

py：8个

txt：1个

md：1个

python

爬虫

scrapy

开发语言

程序设计

需积分: 0 192 浏览量更新于2023-01-10 1 收藏 14KB RAR 举报

基于python语言开发、scrapy框架实现的博客园首页博客爬取项目 1、使用命令行创建项目 2、定义爬取的内容、标题 import scrapy class CnblogItem(scrapy.Item): title = scrapy.Field()　　#定义爬取的标题 link = scrapy.Field()　　 #定义爬取的连接 3、爬取内容的核心代码 item = CnblogItem() item['title'] = response.xpath('//a[@class="titlelnk"]/text()').extract() #使用xpath搜索 item['link'] = response.xpath('//a[@class="titlelnk"]/@href').extract() 4、将爬取内容写入文件 for i, j in zip(titles, links): data += i+' '+j+'\n' f.wr

收起资源包目录

cnblog-spider.rar （11个子文件）

cnblog

__init__.py 0B

pipelines.py 570B

main.py 186B

spiders

__init__.py 161B

cnblog_spider.py 831B

cnblog.txt 42KB

items.py 176B

settings.py 3KB

middlewares.py 2KB

scrapy.cfg 256B

readme.md 1KB

身份认证购VIP最低享 7 折!

30元优惠券

资源推荐

资源预览

资源评论

# 基于python语言开发、scrapy框架实现的博客园首页博客爬取项目 1、使用命令行创建项目 2、定义爬取的内容、标题 import scrapy class CnblogItem(scrapy.Item): title = scrapy.Field()　　#定义爬取的标题 link = scrapy.Field()　　 #定义爬取的连接 3、爬取内容的关键代码 item = CnblogItem() item['title'] = response.xpath('//a[@class="titlelnk"]/text()').extract() #使用xpath搜索 item['link'] = response.xpath('//a[@class="titlelnk"]/@href').extract() 4、将爬取内容写入文件 for i, j in zip(titles, links): data += i+' '+j+'\n' f.write(data) 5、配置文件setting DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en', 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36" } 6、编写主文件main.py 运行main.py，程序会自动生成一个cnblog.txt的文件，里面就是我们爬取下来的内容了。