豆瓣读书数据分析1 本资源摘要信息基于豆瓣读书数据分析1的文件内容,旨在对读书数据进行分析和处理。该文件包含了60671条图书数据,包括书名、作者、出版社、出版时间、页数、价格、ISBN、评分、评论数量等信息。 数据导入和清洗 我们需要将读书数据导入到Python中,并对其进行清洗。我们使用了Pandas库来读取Excel文件,并删除了无关的列。然后,我们使用describe()和info()函数对数据进行初步分析,发现了缺失值和异常值。 处理页数数据 页数数据是object类型的,我们需要将其转换为数值型数据。我们定义了一个convert_to_int方法,如果页数信息是数字,则返回该数字,否则返回0。然后,我们使用apply()函数将convert_to_int方法应用于页数数据,并将其转换为int类型。 处理价格数据 价格数据也是object类型的,我们需要将其转换为数值型数据。我们定义了一个lambda函数,如果价格信息是数字或包含小数点,则返回该数字,否则返回0。然后,我们使用apply()函数将lambda函数应用于价格数据,并将其转换为float类型。 处理评论数量数据 评论数量数据也是object类型的,我们需要将其转换为数值型数据。我们定义了一个lambda函数,如果评论数量信息是数字,则返回该数字,否则返回0。然后,我们使用apply()函数将lambda函数应用于评论数量数据,并将其转换为int类型。 处理出版时间数据 出版时间数据包含了年份信息,我们需要将其提取出来。我们定义了一个year函数,将出版时间信息中包含的年份信息提取出来。如果没有年份信息,则返回空字符串。 数据分析 在处理完数据之后,我们可以对数据进行分析了。我们可以随机抽取一些数据来看看,并对年份信息进行分析。我们发现了两个奇怪的数据点,于是对其进行了处理。 分析图书数量与年份的关系 我们对图书数量与年份的关系进行了分析。我们使用groupby()函数对出版年份进行分组,并计算每个年份的图书数量。结果显示了图书数量与年份的关系。


剩余9页未读,继续阅读













- 粉丝: 35
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 软件产品用户使用报告.doc
- 数字图像处理第二章课件ppt课件.ppt
- 高层框剪结构商务楼项目管理策划书.ppt
- 2023年PLC应用技术课程工学一体化教学实施方案研究.doc
- 基于PLC的X62W万能铣床电气控制.doc
- 综合布线第4章.pptx
- 基于php的网上销售系统的设计与实现.doc
- 室外电力通信电缆的敷设施工.doc
- 计算机基础培训题目.docx
- 2023年办公软件二级考试判断题及答案.doc
- 湖南航天卫星通信科技有限公司(PPT).ppt
- 做个人简历的软件ppt模板.doc
- 网络拓扑图VISIO素材大全.ppt
- 竞盛保险经纪公司的项目管理研究.doc
- 网络营销之定价策略分析.pptx
- 动态规划算法实验报告.doc



评论0