小红书爬虫python
时间: 2025-01-15 13:16:47 浏览: 117
### 如何使用Python编写小红书爬虫
#### 工具介绍
xhs 是一个专门用于从小红书网站提取数据的爬虫工具,基于 Python 编写。此工具通过封装网络请求提供便捷的数据抓取接口,并遵循 MIT 许可证,在 GitHub 上开源[^2]。
#### 安装依赖库
为了运行该爬虫,需安装必要的 Python 库。可以通过 pip 来完成这些包的安装:
```bash
pip install requests beautifulsoup4 selenium pillow
```
#### 配置环境变量
项目默认未开启评论爬取功能;若要启用,则应在 `config/base_config.py` 文件中将 `ENABLE_GET_COMMENTS` 设置为 `True`。更多配置选项同样可以在同一文件内查看,其中含有详细的中文注释说明[^3]。
#### 启动命令示例
以下是几个常用的启动命令实例来执行不同的操作:
- **搜索帖子并获取信息与评论**
```bash
python main.py --platform xhs --lt qrcode --type search
```
- **获取指定帖子的信息与评论**
```bash
python main.py --platform xhs --lt qrcode --type detail
```
- **显示帮助信息**
```bash
python main.py --help
```
以上命令均涉及打开对应的 APP 并扫描二维码以实现登录过程。
#### 示例代码片段
下面给出一段简单的 Python 脚本作为参考,展示如何利用上述提到的方法访问小红书平台上的资源:
```python
import os
from xhs import XHSClient, BaseConfig
def fetch_data():
client = XHSClient()
# 修改BaseConfig中的参数以适应需求
BaseConfig.ENABLE_GET_COMMENTS = True
try:
data = client.search_notes('关键词')
for note in data['notes']:
print(f"title: {note.get('title')}")
print(f"url: https://www.xiaohongshu.com/{note.get('id')}\n")
except Exception as e:
print(e)
if __name__ == '__main__':
fetch_data()
```
这段脚本展示了怎样创建客户端对象以及调用其方法来进行笔记搜索,并打印出每篇笔记的标题及其 URL 地址。
阅读全文
相关推荐


















