一、项目背景与目标
豆瓣读书是中文互联网最有影响力的图书评分社区之一。它的“读书TOP250榜单”聚集了中文世界用户最推崇的书籍,堪称图书阅读参考的金字塔塔尖。我们本次的目标是:
- 自动化抓取豆瓣读书TOP250的所有图书信息;
- 抽取关键字段:书名、评分、评价人数、作者、出版年份、出版社等;
- 保存为
CSV
文件,方便数据分析与可视化; - 提供完整可复用的 Python 爬虫代码;
- 使用异步技术提升爬取效率。
二、技术栈选型说明
为保证稳定性与执行效率,本项目采用如下技术栈:
工具 | 用途 |
---|---|
requests |
初步请求分析,调试数据结构 |
aiohttp + asyncio |
异步并发请求,提高抓取速度 |
BeautifulSoup |
HTML解析与标签提取 |
re |
正则处理部分复杂字段 |
pandas |