用python写一个爬虫,爬取豆瓣电影top250以及评分,爬取前三页
时间: 2024-12-16 16:23:27 浏览: 37
在Python中,我们可以使用requests库来获取网页内容,BeautifulSoup库解析HTML,并结合pandas处理数据。下面是一个简单的示例,展示如何爬取豆瓣电影Top250的前三页评分:
首先,确保已安装了所需的库:
```bash
pip install requests beautifulsoup4 pandas
```
然后编写一个Python脚本:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 定义函数用于获取单页数据
def get_top250_page(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 提取电影标题和评分
movie_list = []
for item in soup.select('.item'):
title = item.select_one('span.title a').text.strip()
rating = float(item.select_one('.rating_num').text)
movie_list.append({'title': title, 'rating': rating})
return movie_list
# 主程序
def main():
top250_url = "https://movie.douban.com/top250"
pages_to_crawl = 3
all_movies = []
for page in range(1, pages_to_crawl + 1):
url = f"{top250_url}?start={page * 25}"
movies_on_this_page = get_top250_page(url)
all_movies.extend(movies_on_this_page)
# 将数据整理成DataFrame
df = pd.DataFrame(all_movies)
# 输出结果
print(df.head())
if __name__ == "__main__":
main()
```
这个脚本会打印出前3页豆瓣电影Top250的电影标题及其评分。
阅读全文
相关推荐


















