使用爬虫爬取豆瓣top250并存入csv中的代码

### Python 爬虫抓取豆瓣 Top250 电影信息并保存至 CSV 文件为了实现这一功能，可以采用 `requests` 和 `lxml` 库解析网页内容，并利用 `pandas` 或者内置的 `csv` 模块将获取的信息写入 CSV 文件。下面是一个完整的代码示例： ```python import requests from lxml import etree import pandas as pd def fetch_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(url, headers=headers) if response.status_code == 200: return response.text else: raise Exception(f'Failed to load page {url}') def parse_html(html_content): tree = etree.HTML(html_content) movies = [] items = tree.xpath('//ol[@class="grid_view"]/li') for item in items: title_chinese = item.xpath('.//span[@class="title"][1]/text()')[0] try: title_english = item.xpath('.//span[@class="other"]/text()')[0].replace('/', '').strip() except IndexError: title_english = '' link = item.xpath('.//a/@href')[0] info_text = ''.join(item.xpath('.//div[@class="bd"]//p[1]/text()')).split('\n')[0].strip().split() director_and_casts = " ".join(info_text).split('...')[:-1][0] year = item.xpath('.//div[@class="bd"]//p[1]/text()[last()]')[0].strip().strip('()') country_type_info = "".join(item.xpath('.//div[@class="bd"]//p[1]/text()[last()-1]')) nationality = country_type_info.split('/')[1].strip() movie_types = '/'.join(country_type_info.split('/')[-1].strip().split()) rating_score = item.xpath('.//span[@class="rating_num"]/text()')[0] num_of_ratings = item.xpath('.//div[@class="star"]/span[last()]/text()')[0].strip('人评价') single_movie_data = [ title_chinese, title_english, link, director_and_casts, year, nationality, movie_types, rating_score, num_of_ratings ] movies.append(single_movie_data) return movies def save_to_csv(data_list, filename='douban_top250.csv'): df = pd.DataFrame( data=data_list, columns=['中文名称', '外文名称', '详情链接', '导演与演员', '年份', '国家地区', '类型', '评分', '评论人数'] ) df.to_csv(filename, index=False, encoding='utf-8-sig') if __name__ == '__main__': base_url = 'https://movie.douban.com/top250?start={}&filter=' all_movies = [] for i in range(10): # 总共十页 url = base_url.format(i * 25) html = fetch_page(url) parsed_items = parse_html(html) all_movies.extend(parsed_items) print(f'Successfully fetched and parsed page {i + 1}') save_to_csv(all_movies) print('All pages have been successfully processed.') ``` 此脚本会遍历每一页的 URL，提取所需字段，并最终把所有收集到的数据存入名为 `douban_top250.csv` 的文件中[^2]。

阅读全文

使用爬虫爬取豆瓣top250并存入csv中的代码

相关推荐

爬虫爬取豆瓣电影TOP250源代码

Python-爬虫爬取豆瓣top250图片

Python爬虫实例-爬取豆瓣Top250-保存为表格

使用爬虫爬取豆瓣TOP250电影并存入CSV

用python爬虫爬取豆瓣电影top250的信息

爬虫练习合集的压缩包，包括爬取豆瓣TOP250的信息、爬取中文网小说信息以及十个爬虫练习

爬虫 爬取豆瓣电影排行榜.zip

爬取豆瓣图书TOP250信息并简单分析展示

利用Scrapy爬取豆瓣Top250电影示例

Scrapy初学者教程：爬取豆瓣Top250评分

scrapy爬虫爬取豆瓣电影top250

爬虫爬取豆瓣电影top100

python利用requests库和html.parser爬取豆瓣top250首页电影的名字和评分并保存成csv文件

python爬虫爬取豆瓣电影的数据

爬虫爬取豆瓣电影评论和评分

爬取豆瓣电影评分数据导出csv和数据库

如何爬取豆瓣电影top250

爬取分析豆瓣电影系统TOP250所有数据信息保存csv代码

如何使用python语言综合使用Requests、BeautifulSoup\Scrapy库等爬取豆瓣电影Top 250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中

python爬取豆瓣电影top250 + 数据可视化

大家在看

TXT文件合并器一款合并文本文件的工具

Scratch语言教程&案例&相关项目资源

Xilinx 7系列FPGA手册[打包下载]

filter LTC1068 模块AD设计 Altium设计 硬件原理图+PCB文件.rar

谐响应分析步骤-ANSYS谐响应分析

最新推荐

网络工程师面试题(80%命中率).doc

springboot基于起点小说网数据的文本分析系统设计与实现_7134v95o_kk003.zip

论多网融合在通信工程中的应用(1).docx

cc65 Windows完整版发布：6502 C开发工具

【CLIP模型实战】：从数据预处理到代码实现的图文相似度计算完全指南

车载以太网doip协议格式

JavaScript中文帮助手册：初学者实用指南

深入理解MySQL存储引擎：InnoDB与MyISAM的终极对决

window中系统中断，cpu占用100%

C++Builder6.0缺失帮助文件的解决方案

爬虫爬取豆瓣电影排行榜.zip

filter LTC1068 模块AD设计 Altium设计硬件原理图+PCB文件.rar