jupyter notebook 爬取数据
时间: 2025-05-13 16:57:21 浏览: 23
Jupyter Notebook 是一个非常强大的工具,它允许用户通过交互式的方式编写 Python 代码并直接查看结果。爬取数据通常涉及以下几个步骤:
### 使用 Jupyter Notebook 进行数据爬取
#### 步骤一:安装必要的库
首先需要确保已经安装了 `requests` 和 `BeautifulSoup4` 等用于网络请求和解析 HTML 的常用库。
```python
!pip install requests beautifulsoup4 lxml pandas
```
#### 步骤二:导入所需的模块
然后,在 Notebook 中引入相应的模块以开始操作。
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
```
#### 步骤三:发送 HTTP 请求获取网页内容
使用 `requests.get()` 函数向目标网站发起 GET 请求,并检查状态码是否正常(通常是200)。
```python
url = "https://example.com"
response = requests.get(url)
if response.status_code == 200:
print("成功访问")
else:
print(f"访问失败,错误码 {response.status_code}")
```
#### 步骤四:解析页面信息
利用 Beautiful Soup 解析返回的数据流,提取感兴趣的部分。
```python
soup = BeautifulSoup(response.text, 'lxml')
titles = soup.find_all('h2') # 根据实际情况调整标签名
for title in titles[:5]:
print(title.get_text())
```
#### 步骤五:保存至文件或其他处理形式
可以将收集到的信息存入 CSV 文件以便后续分析。
```python
data_list = [item.get_text() for item in titles]
df = pd.DataFrame(data_list, columns=["标题"])
df.to_csv("output.csv", index=False)
print(df.head())
```
以上就是在 Jupyter Notebook 上完成一次简单数据抓取的过程。
---
阅读全文
相关推荐

















