首页jupyter notebook 爬取数据

jupyter notebook 爬取数据

时间: 2025-05-13 16:57:21 浏览: 23

Jupyter Notebook 是一个非常强大的工具，它允许用户通过交互式的方式编写 Python 代码并直接查看结果。爬取数据通常涉及以下几个步骤： ### 使用 Jupyter Notebook 进行数据爬取 #### 步骤一：安装必要的库首先需要确保已经安装了 `requests` 和 `BeautifulSoup4` 等用于网络请求和解析 HTML 的常用库。 ```python !pip install requests beautifulsoup4 lxml pandas ``` #### 步骤二：导入所需的模块然后，在 Notebook 中引入相应的模块以开始操作。 ```python import requests from bs4 import BeautifulSoup import pandas as pd ``` #### 步骤三：发送 HTTP 请求获取网页内容使用 `requests.get()` 函数向目标网站发起 GET 请求，并检查状态码是否正常（通常是200）。 ```python url = "https://example.com" response = requests.get(url) if response.status_code == 200: print("成功访问") else: print(f"访问失败，错误码 {response.status_code}") ``` #### 步骤四：解析页面信息利用 Beautiful Soup 解析返回的数据流，提取感兴趣的部分。 ```python soup = BeautifulSoup(response.text, 'lxml') titles = soup.find_all('h2') # 根据实际情况调整标签名 for title in titles[:5]: print(title.get_text()) ``` #### 步骤五：保存至文件或其他处理形式可以将收集到的信息存入 CSV 文件以便后续分析。 ```python data_list = [item.get_text() for item in titles] df = pd.DataFrame(data_list, columns=["标题"]) df.to_csv("output.csv", index=False) print(df.head()) ``` 以上就是在 Jupyter Notebook 上完成一次简单数据抓取的过程。 ---

阅读全文