在jupyter–notebook中用reqests和pyquery库爬取豆瓣图书
时间: 2025-02-07 13:16:03 浏览: 53
在Jupyter Notebook中,你可以通过requests库获取网页内容,然后利用pyquery库解析HTML并提取你需要的信息,如豆瓣图书的相关数据。以下是简单的步骤:
1. **安装所需库**:
首先需要确保你已经安装了`requests`和`PyQuery`(如果还没有,可以使用`pip install requests pyquery`命令进行安装)。
2. **发送HTTP请求**:
使用`requests.get()`函数,向豆瓣图书的URL发送GET请求。例如,如果你想要爬取某个书籍的详情页,URL可能是'https://book.douban.com/subject/<book_id>'。
```python
import requests
url = "https://book.douban.com/subject/<book_id>"
response = requests.get(url)
```
3. **检查响应**:
确保请求成功,通常检查`response.status_code`是否为200表示成功。
4. **解析HTML**:
导入`pyquery`库,将响应内容转换为可以操作的文档对象。
```python
from pyquery import PyQuery as pq
doc = pq(response.text)
```
5. **提取数据**:
使用`doc`对象,根据HTML结构找到你需要的数据,比如书名、作者等信息。例如,你可以这样查找书名:
```python
title = doc("h1 span").text()
```
6. **保存或打印数据**:
将提取到的数据存储在一个变量或直接打印出来。
```python
print(f"书名: {title}")
```
阅读全文
相关推荐
















