# 基于python语言开发、scrapy框架实现的博客园首页博客爬取项目
1、使用命令行创建项目
2、定义爬取的内容、标题
import scrapy
class CnblogItem(scrapy.Item):
title = scrapy.Field() #定义爬取的标题
link = scrapy.Field() #定义爬取的连接
3、爬取内容的关键代码
item = CnblogItem()
item['title'] = response.xpath('//a[@class="titlelnk"]/text()').extract() #使用xpath搜索
item['link'] = response.xpath('//a[@class="titlelnk"]/@href').extract()
4、将爬取内容写入文件
for i, j in zip(titles, links):
data += i+' '+j+'\n'
f.write(data)
5、配置文件setting
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
}
6、编写主文件main.py
运行main.py,程序会自动生成一个cnblog.txt的文件,里面就是我们爬取下来的内容了。
python爬虫-爬取博客园博客信息(含源码)
需积分: 0 192 浏览量
更新于2023-01-10
1
收藏 14KB RAR 举报
基于python语言开发、scrapy框架实现的博客园首页博客爬取项目
1、使用命令行创建项目
2、定义爬取的内容、标题
import scrapy
class CnblogItem(scrapy.Item):
title = scrapy.Field() #定义爬取的标题
link = scrapy.Field() #定义爬取的连接
3、爬取内容的核心代码
item = CnblogItem()
item['title'] = response.xpath('//a[@class="titlelnk"]/text()').extract() #使用xpath搜索
item['link'] = response.xpath('//a[@class="titlelnk"]/@href').extract()
4、将爬取内容写入文件
for i, j in zip(titles, links):
data += i+' '+j+'\n'
f.wr

傻了吧唧不愣登
- 粉丝: 4
最新资源
- java源码包JSP实例源码JAVA开发学习设计参考源代码-基于Java的mp3播放器源代码.zip
- java源码包JSP实例源码JAVA开发学习设计参考源代码-基于J2ME的Java游戏梦幻炸弹人源程序.zip
- java源码包JSP实例源码JAVA开发学习设计参考源代码-基于JAVA的日程提醒簿.zip
- java源码包JSP实例源码JAVA开发学习设计参考源代码-基于MVC的Java资源管理器 v2.0.zip
- java源码包JSP实例源码JAVA开发学习设计参考源代码-基于Java的小型人事管理系统,带数据库.zip
- 国内城建工程项目管理要点研究.docx
- java源码包JSP实例源码JAVA开发学习设计参考源代码-基于smpp协议的Java点对点短信发送源码包.zip
- java源码包JSP实例源码JAVA开发学习设计参考源代码-基于Java的邮件服务器源程序.zip
- 基于遗传算法旋转机械系统的被动平衡.doc
- 构建信息化校园实现跨越式发展.docx
- (源码)基于AVR和Python的足球桌进球检测系统.zip
- 人工智能将统治地球?.docx
- ARM-ASM-汇编语言资源
- 媒体信息处理技术与制作软件.ppt
- JSP音乐搜索软件的设计方案与实现.doc
- 光纤通信技术实验研究报告掺铒光纤激光器.doc