python 豆瓣评论分析方法_基于Python的豆瓣影评分析——数据预处理

本文介绍了如何使用Python进行豆瓣电影《向往的生活》评论数据抓取,通过jieba分词和去除停用词进行预处理,最后通过词云图展示关键词分布,揭示观众的情感倾向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、数据抓取

利用python软件,抓取豆瓣网上关于《向往的生活》的影视短评,进行网页爬虫,爬虫代码如下:import requests

import re

cookies=[cookie1,cookie2,cookie3]

url1='https://movie.douban.com/subject/26873657/comments?start='  #《向往的生活 第1季》豆瓣短评网址

url2='https://movie.douban.com/subject/27602222/comments?start='

#《向往的生活 第2季》豆瓣短评网址

url3='https://movie.douban.com/subject/30441625/comments?start='

#《向往的生活 第3季》豆瓣短评网址

urls=[url1,url2,url3]

comments=[]

for i in range(0,3):

print(urls[i])

for n in range(0,500, 20):

#获取目标网页

url = urls[i] +str(n) + '&limit=20&sort=new_score&status=P'

# print(url)

# print(n)

#打开目录,并获取内容

html =requests.get(url, cookies=cookies[i])

# print(html)

#print(html.text)

#筛选数据

data =re.findall('(.*?)', html.text)

for j inrange(len(data)):

comments.append(data[j])

prin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值