如何使用python语言综合使用Requests、BeautifulSoup\Scrapy库等爬取豆瓣电影Top 250的电影名称、评分和评价人数等信息,并将这些信息保存到CSV文件中
时间: 2025-06-09 14:00:30 浏览: 10
使用Python的`requests`和`BeautifulSoup`库可以从豆瓣电影Top250页面爬取数据,而`pandas`则用于数据清洗和存入CSV。以下是简单的步骤:
1. **安装所需的库**:
确保已经安装了`requests`, `beautifulsoup4`, 和 `pandas`。如果没有,可以用以下命令安装:
```bash
pip install requests beautifulsoup4 pandas
```
2. **编写爬虫代码**:
编写函数,使用`requests`获取网页内容,然后用`BeautifulSoup`解析HTML。
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
def fetch_douban_data(url='https://movie.douban.com/top250'):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
# 获取表格数据
table = soup.find('table', attrs={'class': 'list'})
data = []
for row in table.tbody.trs:
title = row.find('div', {'class': 'hd'}).find('a')['title']
rating = float(row.find('span', {'class': 'rating_num'}).text)
votes = int(row.find('span', {'class': 'pl'}).find('span').text.replace(',', ''))
data.append({'电影名称': title, '评分': rating, '评价人数': votes})
return data
def save_to_csv(data, filename='douban_movies.csv'):
df = pd.DataFrame(data)
df.to_csv(filename, index=False)
# 执行爬取并保存
movies_data = fetch_douban_data()
save_to_csv(movies_data)
```
3. **运行并检查结果**:
调用`fetch_douban_data()`函数获取数据,然后调用`save_to_csv()`函数将其保存为CSV文件。你可以打开生成的CSV文件确认数据是否正确。
阅读全文
相关推荐


















