学习机器学习,认为可以结合数据挖掘项目学习机器学习理论,这样效果更好,学习更快,不易忘记。
天池上面有很多教学的视频和项目,适合拿来入门练手。
今天就对于数据挖掘–二手车交易价格预测进行学习总结
EDA+特征工程+建模+模融合
数据挖掘流程
EDA
-
数据理解:要清楚本题的数据的含义,数据之间是否有关系,要解决一个怎么样的问题。
-
量化方法:看数据是何种类型,具体如下
-
数据清洗
1.数据的峰度与偏度
dataframe.skew() 数据的偏度,长尾巴在左说明往右偏,反之相同
dataframe.kurt() 数据的峰度,就是数据的平缓程度,尖顶峰说明峰度越大
2.pd.values_count()
3.缺失值可视化Python工具库:missingno
4.pandas sample(n=) 作用:从一列/行数据里返回指定数量的随机样本。
- 特征构造(浅谈,属于特征工程里面的一部分)
遇到的代码有关的问题
1.数据的峰度与偏度
dataframe.skew() 数据的偏度,长尾巴在左说明往右偏,反之相同
dataframe.kurt() 数据的峰度,就是数据的平缓程度,尖顶峰说明峰度越大
2.pd.values_count()
3.缺失值可视化Python工具库:missingno
4.pandas sample(n=) 作用:从一列/行数据里返回指定数量的随机样本。