利用DTEmpower对mpg数据集进行汽车油耗预测与分析

独韵

于 2025-04-25 15:36:23 发布

阅读量1k

点赞数 14

CC 4.0 BY-SA版权

文章标签：汽车信息可视化 DTEmpower 回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_50085168/article/details/147512631

1、mpg数据集简介

mpg 数据集是机器学习和统计分析中一个经典的小型数据集，常用于回归分析、数据可视化和探索性数据分析练习。该数据集最初来自 UCI Machine Learning Repository，在许多语言和工具中（如 Python 的 seaborn、statsmodels、R 的 ggplot2 等）都有内置版本。这个数据集主要用来预测汽车的燃油效率。下面是这个数据集的字段。

列名	说明	类型
mpg	每加仑行驶的英里数（燃油效率）	连续变量
cylinders	气缸数量	整数
displacement	排量（立方英寸）	连续变量
horsepower	马力	连续变量（有缺失值）
weight	重量（磅）	连续变量
acceleration	从0加速到60英里/小时的时间	连续变量
model_year	汽车型号年份（比如 70 表示1970年）	整数
origin	产地（1：美国，2：欧洲，3：日本）	分类变量
name	汽车名称（如 "chevrolet impala"）	字符串

2、DTEmpower

DTEmpower 是由南京天洑软件有限公司自主研发的一款智能数据建模软件，旨在帮助工程师和工科专业学生利用工业领域中的仿真、试验、测量等多元化数据进行深入分析，构建高质量的数据模型，实现快速设计评估、实时仿真预测、系统参数预警、设备状态监测等工程应用。

核心优势：

（1）零编码建模

DTEmpower 提供图形化的数据建模流程搭建功能，用户无需编写代码，通过拖拽和连接节点即可完成复杂的数据建模流程，降低了使用门槛。下面是一个模型搭建样例。

（2）丰富的算法支持

DTEmpower软件内置了大量算法，涵盖数据清理、特征提取、特征选择和模型训练等环节。模型训练算法包括 AIAgent、MLP、AdaBoost 等，所有训练算法都应用了天洑自主研发的超参学习引擎 TFAutoML，实现超参自动寻优。下图用了随机森林、KNN以及自开发的AIAgent模型训练。

（3）智能数据清理

针对工业设计数据集的特性，天洑研发了智能数据清理算法 AIOD，能够综合考虑数据的整体分布，更精准地挖掘出数据集中的潜在异常点，提升模型质量。

3、使用DTEmpower进行mpg数据集的预测

（1）数据建模--导入mpg数据集

点击下图中左上角的框出选项导入数据，之后可以在画布看到导入的mpg数据。

（2）流程建模--建立模型流程

将图标拖拽到画布中，连线得到流程，本次实验的流程如下图所示。主要是通过变量删除、空值处理、数据清洗、特征生成、敏感性分析、数据分割、模型训练这些操作来构成整串流程。

1）变量删除

本次研究删除了汽车name等字段，如下图所示。

2）空值处理

由全局的数据据分析可知，马力这一特征有六个空值。需要被剔除。由于缺失值比例较小，不使用数值填充，而是使用变量剔除

手工剔除非常低效，DTEmpower中的空值处理模块可以实现批量剔除

3）数据清理

为了提高代理模型精度，使用DTEmpower中的 AIOD异常点检测模块，基于样本风险评分，剔除样本中的潜在异常点（剔除阈值大于0.18的约2%的数据）。

4）特征生成

这里使用了Robust鲁棒性进行处理，重新生成新的特征，使用原始变量的中位数和四分位数进行缩放，以确保每个变换后特征的统计属性都位于同一范围，增加了可靠性。

5）敏感性分析

敏感性分析使用了MDI方法，MDI通过回归方法拟合数据，以此得到数据集中各个特征的系数/信息增益比例（见下图所示），从而得到特征的重要性排序。

6）数据分割

数据分割节点能够将原始数据集按指定比例分割为两部分，可分别用作模型训练和模型测试。数据分割节点可以视为对数据集的“行设定”。

使用该功能将数据分为百分之75的训练集与百分之25的测试集。

7）模型训练（多模型）

本次研究采用了随机森林、KNN以及软件自研究的AIAgent算法对整个模型进行训练，配置采用默认配置，连接到模型对比可见性能分析。

4、结果展示

	r2	mae	mse	rmse	nrmse	accurary
AIAgent	0.80	0.21	0.09	0.29	0.10	0.80
RandomForest	0.79	0.22	0.09	0.30	0.10	0.79
KNN	0.77	0.2	0.09	0.31	0.11	0.77

如表格所示，三种算法的各种指标被展示出来，可以发现AIAgent的拟合精度最高，三种算法的拟合精度均超过0.75。与此同时，三种算法的估计值与真实值均不超过23%的误差，基本上符合大规模预估的粗略要求。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。