java爬虫抓取校园新闻_爬取全部的校园新闻

本文介绍了一个Python爬虫项目,通过解析HTML页面获取校园新闻的详细信息,包括新闻标题、发布时间、点击次数和内容描述。然后利用pandas对数据进行简单处理,并保存到CSV文件和SQLite数据库中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取全部的校园新闻

1.从新闻url获取新闻详情: 字典,anews

代码如下:

8f900a89c6347c561fdf2122f13be562.png

961ddebeb323a10fe0623af514929fc1.png

1 importrequests2 from bs4 importBeautifulSoup3 from datetime importdatetime4 importre5

6 defclick(url):7 id = re.findall('(\d{1,5})',url)[-1]#返回所有匹配的字符串的字符串列表的最后一个

8 clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(id)9 resClick =requests.get(clickUrl)10 newsClick = int(resClick.text.split('.html')[-1].lstrip("('").rstrip("');"))11 returnnewsClick12

13 defnewsdt(showinfo):14 newsDate = showinfo.split()[0].split(':')[1]15 newsTime = showinfo.split()[1]16 newsDT = newsDate+' '+newsTime17 dt = datetime.strptime(newsDT,'%Y-%m-%d %H:%M:%S')#转换成datetime类型

18 returndt19

20 defanews(url):21 newsDetail ={}22 res =requests.get(url)23 res.encoding = 'utf-8'

24 soup = BeautifulSoup(res.text,'html.parser')25 newsDetail['newsTitle'] = soup.select('.show-title')[0].text#题目

26 showinfo = soup.select('.show-info')[0].text27 newsDetai

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值