该案例的目的是根据已有房屋售价的信息,预测其他房屋的可售价格;
重点在于特征工程部分,对于特征的处理以及属性的构造尤为重要!
kaggle 原地址链接:https://www.kaggle.com/c/house-prices-advanced-regression-techniques
数据处理部分:
- 数据概览 pandas
- 打印N个样本,直观感受样本的数据
- 查看样本量、特征类型、缺失值
- 查看各属性的分布情况,以及一些统计特征
- 特征及Label之间相关性计算、
Note:使用1/10的test.csv做验证
参考如下三篇文章进行数据预处理、特征工程部分的工作:
Kaggle房价预测:数据预处理——练习
https://blog.csdn.net/qilixuening/article/details/75153131
Kaggle房价预测:数据探索——练习
https://blog.csdn.net/qilixuening/article/details/75151026
kaggle_房价预测
https://blog.csdn.net/u012063773/article/details/79349256
https://www.leiphone.com/news/201704/Py7Mu3TwRF97pWc7.html