数据清洗的自我理解

最新推荐文章于 2024-07-20 20:14:19 发布

一只小辣鸡

最新推荐文章于 2024-07-20 20:14:19 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41471128/article/details/118382803

笔记专栏收录该内容

1 篇文章

订阅专栏

本文介绍了数据仓库中ODS、DWD层的数据清洗流程及侧重点，包括数据类型转换、去重、空值处理等内容，并对比了数据挖掘中数据清洗的不同之处。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据清洗

数据仓库的数据清洗

ODS层的数据清洗侧重点（ETL过程中的Transform）：

ODS：Operation Data Store，业务操作数据存储，数据来源层
目的：保证与上游数据的一致性，避免数据重复或错误
流程：数据源->抽取、传输->文件格式转换、数据类型转换->加载到临时数据区->数据清洗->写入正式数据区ODS
清洗过程：

常规数据：数据类型转换、数据去重、空值处理、空格去除、敏感数据加密
脏数据：残缺、错误、重复、多个来源系统数据不一致，将过滤出的脏数据提交上游业务部门，决定剔除还是修复后重新抽取数据。

DWD层的数据清洗侧重点：

DWD：Data Warehouse Details，数据明细层
目的：增强数据可用性，数据仓库整体数据的规范化
流程：ods->数据清洗、计算、轻度汇总->dwd
清洗过程：

剔除不可用数据：去重、去空、异常值处理、去除冗余字段
数据规范化：即数值统一，结合字典表(dim)映射转换，编码(如标识符ID)、名称、boolean值统一，单位统一

DWS - Data Warehouse Service，数据服务层，也叫数据聚合层，进行高频使用维度的数据汇总，可加工成宽表，便于OLAP分析查询
ADS - Application Data Service，应用服务层，结果型数据，可用于报表展示、结果分析，一般存储于ES或导出至Mysql快速查询，或以业务接口形式提供出去

数据挖掘的数据清洗

另外就是数据挖掘，会做大量的数据清洗工作，数仓的重点是维护数据在数仓层级之间的流转，注重过程，而挖掘是结果导向的，清洗过程中会对数据做更多的修正工作，以便于更好的训练模型。
比如空值，数仓更可能将空值置为空字符串或0，而挖掘更可能将空值赋一个均值。
比如越界值，如年龄为-10或200，数仓更可能会将越界值统一处理成999这种无意义数值，而挖掘更可能处理成均值、众数值、标签值(儿童、老人)或手工赋值等。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。