Excel数据分析初探-豆瓣读书数据分析
1.提出问题
针对这次豆瓣读书数据的分析,我们要解决以下问题:
1、 最受欢迎的书籍
2、 最受欢迎的作者
3、 业务最好的出版社
4、 质量最好/最差的书籍
5、 书籍评分和评论数量关系
2.理解数据
我们的豆瓣读书数据一共有60672条记录,数据包含以下字段:书名、作者、出版社、出版时间、页数、价格、ISBN、评分、评论数量。
3.数据清洗
3.1删除重复值
我们选择首先删除数据的重复值,这可以避免后续无意义的运算。
数据>数据工具>删除重复值>全选
3.2处理缺失值
3.2.1书名
这一列有两种缺失值,一是【None】,二是【点击上传封面图片】,失去书名的记录没有利用价值,我们筛选出这两种情况并将其删除。
3.2.2作者、出版社、ISBN
我们对”作者”这一字段的缺失值以”佚名”填充,”出版社”以”某出版社”填充,”ISBN”以 “*”填充。
选中”作者”所在列,Ctrl + F 查找 “None”>查找全部,选中所有查找出来的内容>替换>“佚名”>全部替换。
对于”出版社”也是相同的操作。