首页如何使用python语言综合使用Requests、BeautifulSoup\Scrapy库等爬取豆瓣电影Top 250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中

如何使用python语言综合使用Requests、BeautifulSoup\Scrapy库等爬取豆瓣电影Top 250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中

时间: 2025-06-09 14:00:30 浏览: 10

使用Python的`requests`和`BeautifulSoup`库可以从豆瓣电影Top250页面爬取数据，而`pandas`则用于数据清洗和存入CSV。以下是简单的步骤： 1. **安装所需的库**: 确保已经安装了`requests`, `beautifulsoup4`, 和 `pandas`。如果没有，可以用以下命令安装： ```bash pip install requests beautifulsoup4 pandas ``` 2. **编写爬虫代码**: 编写函数，使用`requests`获取网页内容，然后用`BeautifulSoup`解析HTML。 ```python import requests from bs4 import BeautifulSoup import pandas as pd def fetch_douban_data(url='https://movie.douban.com/top250'): response = requests.get(url) soup = BeautifulSoup(response.text, 'lxml') # 获取表格数据 table = soup.find('table', attrs={'class': 'list'}) data = [] for row in table.tbody.trs: title = row.find('div', {'class': 'hd'}).find('a')['title'] rating = float(row.find('span', {'class': 'rating_num'}).text) votes = int(row.find('span', {'class': 'pl'}).find('span').text.replace(',', '')) data.append({'电影名称': title, '评分': rating, '评价人数': votes}) return data def save_to_csv(data, filename='douban_movies.csv'): df = pd.DataFrame(data) df.to_csv(filename, index=False) # 执行爬取并保存 movies_data = fetch_douban_data() save_to_csv(movies_data) ``` 3. **运行并检查结果**: 调用`fetch_douban_data()`函数获取数据，然后调用`save_to_csv()`函数将其保存为CSV文件。你可以打开生成的CSV文件确认数据是否正确。

阅读全文