小红书爬虫+selenium+扫码
时间: 2025-06-29 21:10:48 浏览: 8
### 使用 Selenium 实现小红书爬虫并处理扫码登录
为了实现小红书的自动登录以及后续的数据抓取操作,可以采用如下方法:
#### 准备工作
确保安装了必要的库:
```bash
pip install selenium requests beautifulsoup4
```
#### 自动化浏览器启动与页面加载
创建自动化浏览器实例,并访问目标网址。
```python
from selenium import webdriver
from time import sleep
driver = webdriver.Chrome()
url = "https://www.xiaohongshu.com"
driver.get(url)
sleep(5) # 给予一定时间让页面完全加载
```
#### 扫码登录流程管理
提供足够的时间让用户通过手机扫描二维码完成身份验证过程。在此期间保持脚本等待状态直到用户确认已成功登录。
```python
print("请尽快使用手机客户端扫描屏幕上的二维码以完成登录...")
input("按回车键表示已完成登录:") # 用户输入任何字符即认为登录完毕
```
#### 存储 Cookies 方便下次免密进入
一旦登录成功,则可以从 WebDriver 对象中提取当前会话的所有 cookie 数据,并将其序列化存储至本地文件系统内以便将来重用这些凭证信息而无需再次经历完整的认证步骤。
```python
cookies = driver.get_cookies()
with open('./xiaohongshuCookies.txt', 'w+', newline='') as file_handler:
json.dump(cookies, file_handler)
print(f"Cookie 已保存到 {os.getcwd()}/xiaohongshuCookies.txt 文件")
```
#### 后续数据采集逻辑构建
当拥有有效的 session token (即 cookies),就可以模拟正常用户的浏览行为来收集所需的信息资源了。这里仅给出一个简单的例子展示如何获取首页的文章列表摘要。
```python
html_source = driver.page_source
soup = BeautifulSoup(html_source, features="lxml")
articles_summary = []
for article in soup.find_all('div', class_='post-item__content'):
title = article.h3.text.strip().replace('\n', '')
link = article.a['href']
articles_summary.append({
'title': title,
'link': f"https://www.xiaohongshu.com{link}"
})
for item in articles_summary[:10]:
print(item)
```
上述代码片段展示了基本的小红书爬虫框架结构及其核心功能模块的设计思路[^2]。需要注意的是,在实际应用过程中应当遵循各平台的服务条款规定合理合法地开展网络爬行活动;同时也要注意保护个人隐私安全不侵犯他人权益。
阅读全文
相关推荐

















