利用DTEmpower对mpg数据集进行汽车油耗预测与分析

1、mpg数据集简介

mpg 数据集是机器学习和统计分析中一个经典的小型数据集,常用于回归分析、数据可视化和探索性数据分析练习。该数据集最初来自 UCI Machine Learning Repository,在许多语言和工具中(如 Python 的 seabornstatsmodels、R 的 ggplot2 等)都有内置版本。这个数据集主要用来预测汽车的燃油效率。下面是这个数据集的字段。

列名说明类型
mpg每加仑行驶的英里数(燃油效率)连续变量
cylinders气缸数量整数
displacement排量(立方英寸)连续变量
horsepower马力连续变量(有缺失值)
weight重量(磅)连续变量
acceleration从0加速到60英里/小时的时间连续变量
model_year汽车型号年份(比如 70 表示1970年)整数
origin产地(1:美国,2:欧洲,3:日本)分类变量
name汽车名称(如 "chevrolet impala")字符串

 2、DTEmpower

DTEmpower 是由南京天洑软件有限公司自主研发的一款智能数据建模软件,旨在帮助工程师和工科专业学生利用工业领域中的仿真、试验、测量等多元化数据进行深入分析,构建高质量的数据模型,实现快速设计评估、实时仿真预测、系统参数预警、设备状态监测等工程应用。

核心优势:

(1)零编码建模

DTEmpower 提供图形化的数据建模流程搭建功能,用户无需编写代码,通过拖拽和连接节点即可完成复杂的数据建模流程,降低了使用门槛。下面是一个模型搭建样例。

(2)丰富的算法支持

DTEmpower软件内置了大量算法,涵盖数据清理、特征提取、特征选择和模型训练等环节。模型训练算法包括 AIAgent、MLP、AdaBoost 等,所有训练算法都应用了天洑自主研发的超参学习引擎 TFAutoML,实现超参自动寻优。下图用了随机森林、KNN以及自开发的AIAgent模型训练。

(3)智能数据清理

针对工业设计数据集的特性,天洑研发了智能数据清理算法 AIOD,能够综合考虑数据的整体分布,更精准地挖掘出数据集中的潜在异常点,提升模型质量。

3、使用DTEmpower进行mpg数据集的预测

(1)数据建模--导入mpg数据集

 点击下图中左上角的框出选项导入数据,之后可以在画布看到导入的mpg数据。

(2)流程建模--建立模型流程

将图标拖拽到画布中,连线得到流程,本次实验的流程如下图所示。主要是通过变量删除、空值处理、数据清洗、特征生成、敏感性分析、数据分割、模型训练这些操作来构成整串流程。

1)变量删除

本次研究删除了汽车name等字段,如下图所示。

2)空值处理

由全局的数据据分析可知,马力这一特征有六个空值。需要被剔除。 由于缺失值比例较小,不使用数值填充,而是使用变量剔除

手工剔除非常低效,DTEmpower中的空值处理模块可以实现批量剔除

3)数据清理

为了提高代理模型精度, 使用DTEmpower中的 AIOD异常点检测模块,基于样本风险评分,剔除样本中的潜在异常点(剔除阈值大于0.18的约2%的数据)。

4)特征生成

这里使用了Robust鲁棒性进行处理,重新生成新的特征,使用原始变量的中位数和四分位数进行缩放,以确保每个变换后特征的统计属性都位于同一范围,增加了可靠性。

5)敏感性分析

敏感性分析使用了MDI方法,MDI通过回归方法拟合数据,以此得到数据集中各个特征的系数/信息增益比例(见下图所示),从而得到特征的重要性排序。

6)数据分割

数据分割节点能够将原始数据集按指定比例分割为两部分,可分别用作模型训练和模型测试。数据分割节点可以视为对数据集的“行设定”。

使用该功能将数据分为百分之75的训练集与百分之25的测试集。

7)模型训练(多模型)

本次研究采用了随机森林、KNN以及软件自研究的AIAgent算法对整个模型进行训练,配置采用默认配置,连接到模型对比可见性能分析。

4、结果展示

r2

mae

mse

rmse

nrmse

accurary

AIAgent

0.80

0.21

0.09

0.29

0.10

0.80

RandomForest

0.79

0.22

0.09

0.30

0.10

0.79

KNN

0.77

0.2

0.09

0.31

0.11

0.77

如表格所示,三种算法的各种指标被展示出来,可以发现AIAgent的拟合精度最高,三种算法的拟合精度均超过0.75。与此同时,三种算法的估计值与真实值均不超过23%的误差,基本上符合大规模预估的粗略要求。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值