文章目录 前言 一、数据抓取 二、数据可视 总结 前言 本文旨在对豆瓣图书榜单TOP250进行数据分析,主要包括数据抓取、数据清洗和数据分析。 一、数据抓取 豆瓣图书top250的数据爬取比较简单,使用requests发送请求,使用lxml模块的xpath表达式提取数据。难点在于价格、出版年份、出版社等信息在一起,需要使用python的字符串处理方法将各种数据分离,包括作者评价人数等信息都需要做替换、去除空格等等字符串操作处理。爬取的数据经过处理如下图所示,代码附后: