java爬虫抓取校园新闻_爬取全部的校园新闻

最新推荐文章于 2023-11-09 15:05:52 发布

原创

最新推荐文章于 2023-11-09 15:05:52 发布 · 479 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java爬虫抓取校园新闻

本文介绍了一个Python爬虫项目，通过解析HTML页面获取校园新闻的详细信息，包括新闻标题、发布时间、点击次数和内容描述。然后利用pandas对数据进行简单处理，并保存到CSV文件和SQLite数据库中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬取全部的校园新闻

1.从新闻url获取新闻详情：字典,anews

代码如下：

1 importrequests2 from bs4 importBeautifulSoup3 from datetime importdatetime4 importre5

6 defclick(url):7 id = re.findall('(\d{1,5})',url)[-1]#返回所有匹配的字符串的字符串列表的最后一个

8 clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(id)9 resClick =requests.get(clickUrl)10 newsClick = int(resClick.text.split('.html')[-1].lstrip("('").rstrip("');"))11 returnnewsClick12

13 defnewsdt(showinfo):14 newsDate = showinfo.split()[0].split(':')[1]15 newsTime = showinfo.split()[1]16 newsDT = newsDate+' '+newsTime17 dt = datetime.strptime(newsDT,'%Y-%m-%d %H:%M:%S')#转换成datetime类型

18 returndt19

20 defanews(url):21 newsDetail ={}22 res =requests.get(url)23 res.encoding = 'utf-8'

24 soup = BeautifulSoup(res.text,'html.parser')25 newsDetail['newsTitle'] = soup.select('.show-title')[0].text#题目

26 showinfo = soup.select('.show-info')[0].text27 newsDetai