python爬虫豆瓣影评保存到excel_【python】Python爬豆瓣电影top250导出Excel

最新推荐文章于 2024-10-13 20:33:56 发布

weixin_39901332

最新推荐文章于 2024-10-13 20:33:56 发布

阅读量512

点赞数

文章标签： python爬虫豆瓣影评保存到excel

该博客详细介绍了如何使用Python的requests和lxml库爬取豆瓣电影Top250的数据，并利用xlwings模块将数据保存到Excel文件中。通过动态设置get请求的start参数，遍历每一页电影信息，提取电影名称、评分和评论人数，最终实现数据的抓取和整理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本帖最后由莫失莫忘angle 于 2020-9-29 16:44 编辑

以前写到csdn了话说直接复制没有格式那就重新在写一遍

首先需要安装好爬虫需要用到的python库开发工具使用的是pycharm

1:request 网络请求模块

2:lxml 取数据的模块这里用的是xpath 没有用bs4

3.xlwings 对Excel进行读写的模块

如果安装失败或者安装缓慢可以参考之前的博客将pycharm镜像更换为清华大学镜像

一键直达http://suo.im/63Iz1K首先需要知道豆瓣电影的url是这样的

第二页:https://movie.douban.com/top250?start=25&filter=

第三页:https://movie.douban.com/top250?start=50&filter=

第四页:https://movie.douban.com/top250?start=75&filter=

也就是说每一页有25条数据 get请求的start参数就是起始的数据结束的数据就是 25 50 75等等那么只需要在get请求中从0开始每次加25即可

因为是top250 所以加到225就不加了首先需要写好start参数变化的值请求url封装成requesUrl方法

[Python] 纯文本查看复制代码if __name__ == "__main__":

start = 0

while start <= 225:

requestUrl(start)

start = start + 25

接下来封装requestUrl函数

[Python] 纯文本查看复制代码def requestUrl(start):

url = "https://movie.douban.com/top250"

header = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"

}

params = {

"start": start,

"filter": ""

}

response = requests.get(url=url, params=params, headers=header).text

terr = etree.HTML(response)

terr_lis = terr.xpath('//ol[@class="grid_view"]/li')

for i in terr_lis:

video_name = i.xpath('./div/div/div/a/span/text()')[0]

video_score = i.xpath('./div/div/div/div/span[2]/text()')[0]

video_evaluate = i.xpath('./div/div/div/div/span[4]/text()')[0]

# print(text + ' 评分:' + number + "\n")

这里教大家一个小技巧

20200919165343144.png (161.77 KB, 下载次数: 0)

2020-9-29 14:17 上传

这里可以直接copy出来xpath的路径不用一个一个的写很方便的

其中 video_name是电影名称 video_score是电影评分 video_evaluate电影的评论人数

到这里已经拿到了我们想要的数据

下面就是使用xlwings 导出数据

[Python] 纯文本查看复制代码wb = xlwings.Book("e:\example.xlsx")

sht = wb.sheets["sheet1"]

sht.range('A1').value = "xlwiassssssssssssssssngs"

这是最基本的用法首先打开文件然后获取工作表

A1对应的是网格的位置 value就是需要写入的值那么我们就知道A是固定的 1是动态的所以只需要动态改变A后边的数据即可

完整代码如下

[Python] 纯文本查看复制代码import requests

from lxml import etree

import xlwings

video_name_colunm = 0

video_score_colunm = 0

video_evaluate_colunm = 0

def requestUrl(start):

global video_name_colunm

global video_score_colunm

global video_evaluate_colunm

url = "https://movie.douban.com/top250"

header = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"

}

params = {

"start": start,

"filter": ""

}

response = requests.get(url=url, params=params, headers=header).text

terr = etree.HTML(response)

terr_lis = terr.xpath('//ol[@class="grid_view"]/li')

for i in terr_lis:

video_name = i.xpath('./div/div/div/a/span/text()')[0]

video_score = i.xpath('./div/div/div/div/span[2]/text()')[0]

video_evaluate = i.xpath('./div/div/div/div/span[4]/text()')[0]

# print(text + ' 评分:' + number + "\n")

video_name_colunm = video_name_colunm + 1

video_name_xls = "A" + str(video_name_colunm)

sht.range(video_name_xls).value = video_name

video_score_colunm = video_score_colunm + 1

video_score_xls = "B" + str(video_score_colunm)

sht.range(video_score_xls).value = video_score

video_evaluate_colunm = video_evaluate_colunm + 1

video_evaluate_xls = "C" + str(video_evaluate_colunm)

sht.range(video_evaluate_xls).value = video_evaluate

sht.range(video_evaluate_xls).columns.autofit()

print("正在写入----" + video_name)

if __name__ == "__main__":

wb = xlwings.Book("e:\example.xlsx")

sht = wb.sheets["sheet1"]

start = 0

while start <= 225:

requestUrl(start)

start = start + 25

这里新建了3个全局变量并且初始化为0 每次+1 好了这下结果就出来了

e:\example.xlsx 这里必须要在E盘根目录下创建这个文件可以自行修改

20200919171545361.png (49.15 KB, 下载次数: 0)

2020-9-29 14:17 上传

20200919171604177.png (51.83 KB, 下载次数: 0)

2020-9-29 14:17 上传

基本思路就是这样想要导出什么数据可以自己尝试