首页用jupyter notebook爬取豆瓣top250的rank,name,actor,releasetime,score的完整命令

用jupyter notebook爬取豆瓣top250的rank,name,actor,releasetime,score的完整命令

时间: 2025-01-23 17:16:01 浏览: 49

要使用Jupyter Notebook爬取豆瓣Top 250的电影排名（rank）、名称（name）、演员（actor）、上映时间（releasetime）和评分（score），你可以使用Python的requests库来发送HTTP请求，使用BeautifulSoup库来解析HTML内容。以下是一个完整的命令和代码示例： 1. 首先，确保你已经安装了必要的库。如果没有安装，可以使用以下命令进行安装： ```bash pip install requests pip install beautifulsoup4 ``` 2. 在Jupyter Notebook中编写并运行以下代码： ```python import requests from bs4 import BeautifulSoup # 创建一个空列表来存储结果 results = [] # 豆瓣Top 250的URL，每页25部电影，共10页 for i in range(10): url = f'https://movie.douban.com/top250?start={i*25}' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 找到所有的电影条目 movies = soup.find_all('div', class_='item') for movie in movies: # 电影排名 rank = movie.find('em').text # 电影名称 name = movie.find('span', class_='title').text # 演员信息 info = movie.find('div', class_='bd').find('p').text.strip().split('\n') actor = info[0].strip() # 上映时间 releasetime = info[1].strip().split(' ')[0] # 评分 score = movie.find('span', class_='rating_num').text # 将结果添加到列表中 results.append({ 'rank': rank, 'name': name, 'actor': actor, 'releasetime': releasetime, 'score': score }) # 打印结果 for result in results: print(f"排名: {result['rank']}, 名称: {result['name']}, 演员: {result['actor']}, 上映时间: {result['releasetime']}, 评分: {result['score']}") ``` 这段代码会爬取豆瓣Top 250的电影信息，并打印出每部电影的排名、名称、演员、上映时间和评分。

阅读全文