数据挖掘流程baseline

学习机器学习,认为可以结合数据挖掘项目学习机器学习理论,这样效果更好,学习更快,不易忘记。
天池上面有很多教学的视频和项目,适合拿来入门练手。
今天就对于数据挖掘–二手车交易价格预测进行学习总结

EDA+特征工程+建模+模融合

在这里插入图片描述
数据挖掘流程

EDA

  • 数据理解:要清楚本题的数据的含义,数据之间是否有关系,要解决一个怎么样的问题。
    在这里插入图片描述

  • 量化方法:看数据是何种类型,具体如下在这里插入图片描述

  • 数据清洗
    在这里插入图片描述

1.数据的峰度与偏度
dataframe.skew() 数据的偏度,长尾巴在左说明往右偏,反之相同
dataframe.kurt() 数据的峰度,就是数据的平缓程度,尖顶峰说明峰度越大
2.pd.values_count()
3.缺失值可视化Python工具库:missingno
4.pandas sample(n=) 作用:从一列/行数据里返回指定数量的随机样本。

  • 特征构造(浅谈,属于特征工程里面的一部分)
    在这里插入图片描述

遇到的代码有关的问题

1.数据的峰度与偏度
dataframe.skew() 数据的偏度,长尾巴在左说明往右偏,反之相同
dataframe.kurt() 数据的峰度,就是数据的平缓程度,尖顶峰说明峰度越大
2.pd.values_count()
3.缺失值可视化Python工具库:missingno
4.pandas sample(n=) 作用:从一列/行数据里返回指定数量的随机样本。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值