首页用python写一个爬虫，爬取豆瓣电影top250以及评分，爬取前三页

用python写一个爬虫，爬取豆瓣电影top250以及评分，爬取前三页

时间: 2024-12-16 16:23:27 浏览: 37

在Python中，我们可以使用requests库来获取网页内容，BeautifulSoup库解析HTML，并结合pandas处理数据。下面是一个简单的示例，展示如何爬取豆瓣电影Top250的前三页评分：首先，确保已安装了所需的库： ```bash pip install requests beautifulsoup4 pandas ``` 然后编写一个Python脚本： ```python import requests from bs4 import BeautifulSoup import pandas as pd # 定义函数用于获取单页数据 def get_top250_page(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 提取电影标题和评分 movie_list = [] for item in soup.select('.item'): title = item.select_one('span.title a').text.strip() rating = float(item.select_one('.rating_num').text) movie_list.append({'title': title, 'rating': rating}) return movie_list # 主程序 def main(): top250_url = "https://movie.douban.com/top250" pages_to_crawl = 3 all_movies = [] for page in range(1, pages_to_crawl + 1): url = f"{top250_url}?start={page * 25}" movies_on_this_page = get_top250_page(url) all_movies.extend(movies_on_this_page) # 将数据整理成DataFrame df = pd.DataFrame(all_movies) # 输出结果 print(df.head()) if __name__ == "__main__": main() ``` 这个脚本会打印出前3页豆瓣电影Top250的电影标题及其评分。

阅读全文