用jupyter notebook爬取豆瓣top250的rank,name,actor,releasetime,score的完整命令
时间: 2025-01-23 17:16:01 浏览: 49
要使用Jupyter Notebook爬取豆瓣Top 250的电影排名(rank)、名称(name)、演员(actor)、上映时间(releasetime)和评分(score),你可以使用Python的requests库来发送HTTP请求,使用BeautifulSoup库来解析HTML内容。以下是一个完整的命令和代码示例:
1. 首先,确保你已经安装了必要的库。如果没有安装,可以使用以下命令进行安装:
```bash
pip install requests
pip install beautifulsoup4
```
2. 在Jupyter Notebook中编写并运行以下代码:
```python
import requests
from bs4 import BeautifulSoup
# 创建一个空列表来存储结果
results = []
# 豆瓣Top 250的URL,每页25部电影,共10页
for i in range(10):
url = f'https://movie.douban.com/top250?start={i*25}'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有的电影条目
movies = soup.find_all('div', class_='item')
for movie in movies:
# 电影排名
rank = movie.find('em').text
# 电影名称
name = movie.find('span', class_='title').text
# 演员信息
info = movie.find('div', class_='bd').find('p').text.strip().split('\n')
actor = info[0].strip()
# 上映时间
releasetime = info[1].strip().split(' ')[0]
# 评分
score = movie.find('span', class_='rating_num').text
# 将结果添加到列表中
results.append({
'rank': rank,
'name': name,
'actor': actor,
'releasetime': releasetime,
'score': score
})
# 打印结果
for result in results:
print(f"排名: {result['rank']}, 名称: {result['name']}, 演员: {result['actor']}, 上映时间: {result['releasetime']}, 评分: {result['score']}")
```
这段代码会爬取豆瓣Top 250的电影信息,并打印出每部电影的排名、名称、演员、上映时间和评分。
阅读全文
相关推荐


















