活动介绍

python爬虫-爬取博客园博客信息(含源码)

preview
共11个文件
py:8个
txt:1个
md:1个
需积分: 0 7 下载量 192 浏览量 更新于2023-01-10 1 收藏 14KB RAR 举报
基于python语言开发、scrapy框架实现的博客园首页博客爬取项目 1、使用命令行创建项目 2、定义爬取的内容、标题 import scrapy class CnblogItem(scrapy.Item): title = scrapy.Field()  #定义爬取的标题 link = scrapy.Field()   #定义爬取的连接 3、爬取内容的核心代码 item = CnblogItem() item['title'] = response.xpath('//a[@class="titlelnk"]/text()').extract() #使用xpath搜索 item['link'] = response.xpath('//a[@class="titlelnk"]/@href').extract() 4、将爬取内容写入文件 for i, j in zip(titles, links): data += i+' '+j+'\n' f.wr
身份认证 购VIP最低享 7 折!
30元优惠券
傻了吧唧不愣登
  • 粉丝: 4
上传资源 快速赚钱
voice
center-task 前往需求广场,查看用户热搜