1、mpg数据集简介
mpg
数据集是机器学习和统计分析中一个经典的小型数据集,常用于回归分析、数据可视化和探索性数据分析练习。该数据集最初来自 UCI Machine Learning Repository,在许多语言和工具中(如 Python 的 seaborn
、statsmodels
、R 的 ggplot2
等)都有内置版本。这个数据集主要用来预测汽车的燃油效率。下面是这个数据集的字段。
列名 | 说明 | 类型 |
---|---|---|
mpg | 每加仑行驶的英里数(燃油效率) | 连续变量 |
cylinders | 气缸数量 | 整数 |
displacement | 排量(立方英寸) | 连续变量 |
horsepower | 马力 | 连续变量(有缺失值) |
weight | 重量(磅) | 连续变量 |
acceleration | 从0加速到60英里/小时的时间 | 连续变量 |
model_year | 汽车型号年份(比如 70 表示1970年) | 整数 |
origin | 产地(1:美国,2:欧洲,3:日本) | 分类变量 |
name | 汽车名称(如 "chevrolet impala") | 字符串 |
2、DTEmpower
DTEmpower 是由南京天洑软件有限公司自主研发的一款智能数据建模软件,旨在帮助工程师和工科专业学生利用工业领域中的仿真、试验、测量等多元化数据进行深入分析,构建高质量的数据模型,实现快速设计评估、实时仿真预测、系统参数预警、设备状态监测等工程应用。
核心优势:
(1)零编码建模
DTEmpower 提供图形化的数据建模流程搭建功能,用户无需编写代码,通过拖拽和连接节点即可完成复杂的数据建模流程,降低了使用门槛。下面是一个模型搭建样例。
(2)丰富的算法支持
DTEmpower软件内置了大量算法,涵盖数据清理、特征提取、特征选择和模型训练等环节。模型训练算法包括 AIAgent、MLP、AdaBoost 等,所有训练算法都应用了天洑自主研发的超参学习引擎 TFAutoML,实现超参自动寻优。下图用了随机森林、KNN以及自开发的AIAgent模型训练。
(3)智能数据清理
针对工业设计数据集的特性,天洑研发了智能数据清理算法 AIOD,能够综合考虑数据的整体分布,更精准地挖掘出数据集中的潜在异常点,提升模型质量。
3、使用DTEmpower进行mpg数据集的预测
(1)数据建模--导入mpg数据集
点击下图中左上角的框出选项导入数据,之后可以在画布看到导入的mpg数据。
(2)流程建模--建立模型流程
将图标拖拽到画布中,连线得到流程,本次实验的流程如下图所示。主要是通过变量删除、空值处理、数据清洗、特征生成、敏感性分析、数据分割、模型训练这些操作来构成整串流程。
1)变量删除
本次研究删除了汽车name等字段,如下图所示。
2)空值处理
由全局的数据据分析可知,马力这一特征有六个空值。需要被剔除。 由于缺失值比例较小,不使用数值填充,而是使用变量剔除
手工剔除非常低效,DTEmpower中的空值处理模块可以实现批量剔除
3)数据清理
为了提高代理模型精度, 使用DTEmpower中的 AIOD异常点检测模块,基于样本风险评分,剔除样本中的潜在异常点(剔除阈值大于0.18的约2%的数据)。
4)特征生成
这里使用了Robust鲁棒性进行处理,重新生成新的特征,使用原始变量的中位数和四分位数进行缩放,以确保每个变换后特征的统计属性都位于同一范围,增加了可靠性。
5)敏感性分析
敏感性分析使用了MDI方法,MDI通过回归方法拟合数据,以此得到数据集中各个特征的系数/信息增益比例(见下图所示),从而得到特征的重要性排序。
6)数据分割
数据分割节点能够将原始数据集按指定比例分割为两部分,可分别用作模型训练和模型测试。数据分割节点可以视为对数据集的“行设定”。
使用该功能将数据分为百分之75的训练集与百分之25的测试集。
7)模型训练(多模型)
本次研究采用了随机森林、KNN以及软件自研究的AIAgent算法对整个模型进行训练,配置采用默认配置,连接到模型对比可见性能分析。
4、结果展示
r2 | mae | mse | rmse | nrmse | accurary | |
AIAgent | 0.80 | 0.21 | 0.09 | 0.29 | 0.10 | 0.80 |
RandomForest | 0.79 | 0.22 | 0.09 | 0.30 | 0.10 | 0.79 |
KNN | 0.77 | 0.2 | 0.09 | 0.31 | 0.11 | 0.77 |
如表格所示,三种算法的各种指标被展示出来,可以发现AIAgent的拟合精度最高,三种算法的拟合精度均超过0.75。与此同时,三种算法的估计值与真实值均不超过23%的误差,基本上符合大规模预估的粗略要求。