数据质量与值插补:从偏差检测到数据修复

立即解锁
发布时间: 2025-09-07 01:59:22 阅读量: 13 订阅数: 21 AIGC
PDF

数据清洗的艺术与实践

# 数据质量与值插补:从偏差检测到数据修复 ## 1. 数据质量中的过采样问题 ### 1.1 过采样的概念与应用场景 在数据收集过程中,过采样(oversampling)是一种常见的策略。民意调查公司常常会故意采用过采样,其目的是针对总体中不常见的类别或值范围进行更多的选取,以填补参数空间;或者对于分析目的需要高辨别度的子群体进行过采样。过采样的应用场景不仅局限于民意调查中的人类受试者,在其他领域,如回旋加速器中产生的稀有粒子、研究森林中的稀有植物等情况也会用到。 例如,皮尤研究中心在收集数据时会明确记录过采样方法以及对总体分布的预期。相关 2010 年民意调查的详细信息可查看:[https://www.pewsocialtrends.org/2010/02/24/millennials-confident-connected-open-to-change/](https://www.pewsocialtrends.org/2010/02/24/millennials-confident-connected-open-to-change/) 。不过在本次练习中,我们假设数据没有足够的文档和元数据,这种情况在现实中很常见。原始数据可从 [https://www.gnosis.cx/cleaning/pew-survey.csv](https://www.gnosis.cx/cleaning/pew-survey.csv) 获取。 ### 1.2 任务分析 #### 1.2.1 任务 1:判断年龄的过采样和欠采样情况 读取数据后,需要判断哪些年龄段被故意过采样或欠采样以及程度如何。为每个观测添加一个名为 `sampling_multiplier` 的新列,将“中性”情况记为 1x。例如,如果认为 40 岁的受试者被过选 5 倍,则赋值 5.0;如果认为 50 岁的受试者被系统地欠选 2 倍,则赋值 0.5。同时要考虑到 2010 年美国人口年龄分布并非均匀,且样本量约为 2000,有 75 种可能的年龄,由于随机性导致的子组大小的非均匀性应编码为 1.0。 #### 1.2.2 任务 2:对分类值进行多布尔编码 部分分类字段可能编码了相关但不同的二进制值,如关于技术的问题: ```python import pandas as pd pew = pd.read_csv('data/pew-survey.csv') print(list(pew.q23a.unique())) ``` 输出: ``` ['New technology makes people closer to their friends and family', 'New technology makes people more isolated', '(VOL) Both equally', "(VOL) Don't know/Refused", '(VOL) Neither equally'] ``` 由于前两个描述可能被调查者同时相信或都不相信,将它们分别编码为布尔值是合理的。对于拒绝回答的情况,需要在重新编码时做出决策。要确定哪些分类值应更好地编码为多个布尔值,并相应地修改数据集,同时解释和说明每个字段的决策理由。 #### 1.2.3 任务 3:判断其他人口统计字段的过采样情况 除年龄外,还需判断其他人口统计字段是否被过采样。虽然列名大多晦涩难懂,但可以假设具有表示意见程度的定性答案的字段是被调查的因变量,而非人口统计自变量。例如: ```python print(list(pew.q1.unique())) ``` 输出: ``` ['Very happy', 'Pretty happy', 'Not too happy', "(VOL) Don't know/Refused"] ``` 完成此任务可能需要参考外部数据源,如查找 2010 年美国时区的大致人口分布,并与数据集中的分布进行比较: ```python print(list(pew.timezone.unique())) ``` 输出: ``` ['Eastern', 'Central', 'Mountain', 'Pacific'] ``` #### 1.2.4 任务 4:对有序编码字段进行重新编码 像任务 3 中的 `q1` 字段是明显的有序编码。虽然无法直接为“非常开心:相当开心”与“相当开心:不太开心”分配相对比率,但这三个值的排名很明显,将它们编码为序数 1、2 和 3 是合理且有用的。当然,也需要对拒绝回答的情况进行编码。重新编码所有相关字段以利用这种直观的领域知识。 ### 1.3 数据偏差与周期性 数据集中的偏差是一个常见问题,数据集很少能完全代表总体,往往会从总体中进行倾斜和选择以形成特定的画面。偏差有时是有意且合理的,用于填补参数空间;有时则反映了潜在现实中数量或类别的分布。检测偏差是解决问题的第一步。 与偏差相关但略有不同的是数据的周期性。当数据以某种方式排序(通常是时间序列)时,特定的数据系列通常具有“信号”和“变化”的成分,将它们分离是很有用的。信号在某种程度上也是一种偏差,它提供了在时间 T 测量值更可能接近 M 的预期。识别信号是数据分析的重要方面,同时识别与信号的偏差也能提供有趣的额外信息。 ## 2. 值插补的必要性与决策因素 ### 2.1 值插补的背景 数据可能因各种原因出现缺失或不可信的情况。在处理这些数据时,有时直接丢弃是最佳选择,但很多时候通过某种方式插补值以保留观测中的其他特征更有用。在进行值插补时,重要的是记录插补值与原始数据集值之间的差异,常见的方法是维护数据的不同版本以及可重复执行修改的脚本。 ### 2.2 插补与丢弃记录的决策因素 是否插补值还是丢弃记录并非非此即彼的选择,决策时通常需要考虑以下几个因素: - **数据量**:如果数据有限,保留尽可能多的记录尤为重要,因为机器学习模型通常数据越多表现越好。如果丢弃缺失数据后仍有大量记录(如数万条),可能对插补的担忧会减少;但如果只有数百条记录,每条记录都很珍贵,不过插补错误也可能产生不成比例的影响。 - **缺失数据的偏差情况**:如果缺失记录可能涉及与总体数据集特征或模式不同的观测,那么挽救这些记录就尤为重要。例如,某个传感器位置或时间段与缺失数据密切相关,该位置或时间段可能是捕捉所建模领域某些方面所必需的。 - **偏差相关决策**:可以决定丢弃属于“随机缺陷”子集的缺失数据记录,但对于有系统性缺失数据的记录要保留,因为它们涉及问题参数空间的不同区域。 - **记录的特征数量**:一个有五个特征且其中两个缺失的记录,对于好的模型来说可能保留的有用信息不多;而一个有五十或一千个特征且只有一个缺失的记录,更值得修复。 - **缺失值的角色**:如果监督学习训练集中的目标特征缺失,插补可能作用不大;而插补输入特征通常更有用,但该输入特征在问题或领域中的角色也会有所不同,从“业务目的”角度来看,某个特定特征可能是关键的,插补此类中心任务重要的特征通常不明智。 ### 2.3 典型值插补的概念 典型值插补是一种简单的方法,即假设缺失值与同一特征的总体趋势相似。在某些情况下,领域知识可以告知合理的默认值;若没有这些背景知识,现有数据也能为插补提供指导。 ### 2.4 典型表格数据的插补示例 以 UCI 机器学习库中
corwn 最低0.47元/天 解锁专栏
买1年送3月
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

勃斯李

大数据技术专家
超过10年工作经验的资深技术专家,曾在一家知名企业担任大数据解决方案高级工程师,负责大数据平台的架构设计和开发工作。后又转战入互联网公司,担任大数据团队的技术负责人,负责整个大数据平台的架构设计、技术选型和团队管理工作。拥有丰富的大数据技术实战经验,在Hadoop、Spark、Flink等大数据技术框架颇有造诣。
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

远程人际通信中的触觉媒介:按摩与非语言交流的创新应用

# 远程人际通信中的触觉媒介:按摩与非语言交流的创新应用 在当今数字化时代,远程人际通信变得越来越重要。触觉媒介作为一种新兴的通信方式,为远程交流带来了全新的体验。本文将探讨触觉媒介在远程人际通信中的应用,特别是在按摩和非语言交流方面的创新实践。 ## 1. 按摩:远程关怀的新方式 按摩作为一种社交治疗性触摸方式,在家庭、情侣或治疗师与客户之间具有重要作用。它不仅能促进伴侣间的相互关怀,还能改善心理健康和减轻压力。以下是几种远程按摩的创新实现方式: ### 1.1 Stress Outsourced (SOS) Chung 等人开发的 Stress Outsourced (SOS) 是早期

利用声脉冲信号进行空中手写识别

# 利用声脉冲信号进行空中手写识别 ## 1. 引言 如今,触摸屏技术已广泛应用于与计算机系统的交互中,比如在肯德基和麦当劳的自助点餐屏幕,以及自动取款机(ATM)信息亭中,我们使用触摸屏输入密码和取款。然而,受 COVID - 19 的影响,这种接触式交互方式会增加疾病传播的风险。因此,设计一种无接触的传感系统,利用廉价的声学传感器实现准确、可靠的空中手写输入具有重要意义。 一些现有的无接触手写系统需要额外定制的高成本设备,如 FMCW 雷达和激光雷达;部分利用 WiFi 信号的系统存在严重的位置依赖问题;近期利用智能设备中嵌入的声学信号进行手势跟踪的系统,在使用前需要处理复杂的系统延迟

资源分配中的匹配建议与算法优化

### 资源分配中的匹配建议与算法优化 #### 1. 匹配场景分析 在资源分配问题中,当向兼容性图添加与特殊代理 $x^*$ 相关的边(满足预算约束)时,存在两种可能的场景: - **场景 1**:图 $G'$ 的最大匹配大小比图 $G$ 的最大匹配大小多 1。在这种情况下,$x^*$ 在 $G'$ 的所有最大匹配中都被匹配,其被匹配的概率达到最大值 1。 - **场景 2**:图 $G'$ 的最大匹配大小与图 $G$ 的最大匹配大小相同。此时,$G'$ 中所有不是 $G$ 的最大匹配的最大匹配都会将 $x^*$ 与一个资源匹配。 #### 2. 决策版本问题及复杂度 为了研究匹配建议问

人机交互工程设计原理:从特定问题到通用解决方案

# 人机交互工程设计原理:从特定问题到通用解决方案 ## 1. 用户抽象行为诊断标准 在研究用户与系统的交互时,明确用户的抽象行为诊断标准至关重要。以下是用户抽象行为的诊断标准: | 用户行为 | 诊断标准 | | --- | --- | | 编码(Encoding) | 用户阅读一页信息。若需滚动页面,每多滚动一屏信息,诊断为一次“编码”行为。若用户发现页面上的某些信息因近期操作而更新,此情况不计为编码行为。 | | 规划(Planning) | 改变用户模型抽象表示的状态(即转变当前的购物计划)。 | | 控制(Controlling) | 确定实现当前购物计划的下一步行动。 | | 执

儿童用户研究:从偏差认知到实践优化

### 儿童用户研究:从偏差认知到实践优化 #### 1. 研究成果交付与偏差认知 当研究人员将研究结果交付给设计师、开发者、决策者和其他利益相关者后,接下来就看他们如何行动了。若他们不采取行动,那将是件憾事;若与研究建议背道而驰,就更令人惋惜。而且,多数全职研究人员在开发过程后期,很少有机会或意愿去跟进或影响利益相关者的行动。 研究和偏差并非凭空产生,也不会自行发挥作用。研究的 18 个步骤并非总能一帆风顺,可能会进两步退一步,甚至可能无法到达预期目标。出色的研究并非偶然所得,而是需要严谨的态度、规范的流程、辛勤的付出以及对自身实践的仔细审视,同时要从失败中汲取教训。 偏差在人类认知中

基于可穿戴传感器的体育锻炼质量评估

# 基于可穿戴传感器的体育锻炼质量评估 ## 1. 系统设计 系统采用典型的机器学习分类任务流程,包括数据采集、预处理、训练和验证步骤。验证工作在系统设计时用于寻找合适的默认超参数值,在评估阶段用于评估系统在不同场景下的性能。具体流程如下: ```mermaid graph LR A[数据采集] --> B[预处理] B --> C[训练] C --> D[验证] ``` ### 1.1 数据采集 数据采集系统使用四个商用传感器板(Thunderboard Sense 2),每个传感器板配有一个 3 轴加速度计和一个 3 轴陀螺仪。经与物理治疗师协商,传感器被安置在

StickAR与CMAR:创新应用助力学习与记录

# StickAR与CMAR:创新应用助力学习与记录 ## 1. StickAR移动应用:革新笔记记录体验 ### 1.1 访问资产查看页面 StickAR移动应用为用户提供了便捷的资产查看方式,有两种途径可访问资产查看页面: - 通过AR扫描交互流程进入。 - 在主页点击StickAR标记按钮。 进入该页面后,用户可进行多项资产管理操作,包括分配新资产、查看和编辑已分配资产以及从StickAR标记中移除资产。具体操作步骤如下: 1. 点击下方的剪辑按钮,将文件分配到StickAR标记的存储中。 2. 系统会自动跳转到文件浏览器,用户可在此搜索想要上传的图像或视频。 3. 分配完成后,所有

第六代GPU:光线追踪与网格着色器

### 第六代GPU:光线追踪与网格着色器 #### 1. NVIDIA Turing GPU的突破 NVIDIA展示了GPU能够不断进化,以实现照片级真实感和交互式帧率的梦想。向GPU添加额外的专用处理器或引擎并非新概念,早期的图形控制器就具备视频编解码器、音频和独特功能加速器。Turing GPU在不断发展的GPU中加入了AI和专用光线追踪核心,它是一款具有革命性的产品,为其他GPU供应商设定了必须达到的门槛。 NVIDIA Turing GPU是一款突破性的设备,拥有最多的着色器,是当时制造的最大芯片。它面向游戏和数据中心两个市场设计,但包含了每个细分市场并非都需要的部分,这让NVI

运动游戏设计:平衡健康与娱乐的艺术

### 运动游戏设计:平衡健康与娱乐的艺术 #### 1. 运动游戏的目标与挑战 运动游戏(exergames)通过将运动与游戏相结合,为玩家带来了独特的体验。它能有效激发玩家对运动的情境兴趣,然而,这并不意味着能保证玩家持续增加运动量,而且与传统运动相比,玩家可能无法达到确保健康效果所需的活动水平。因此,开发促进健康相关身体活动的运动游戏需要更全面、基于设计的方法。 在设计运动游戏时,需要平衡功利性目标(如促进健康)和享乐性目标(如游戏体验)。从功利性角度看,运动的持续时间和强度等定量因素很重要;从享乐性角度看,运动的类型或模式等定性方面,如认知或协调需求,也会影响玩家的心理体验。例如,

AI应用的挑战与应对

### AI应用的挑战与应对 在当今科技飞速发展的时代,人工智能(AI)已经在各个领域展现出了巨大的潜力和影响力。从品牌 - 消费者动态管理到广告效果提升,AI的应用无处不在。然而,在追求超级智能的道路上,我们也面临着诸多挑战。 #### 1. AI的应用与潜力 AI在高低参与度行业中的应用对品牌 - 消费者动态管理技术产生了重大影响,还能用于预测转化率。例如,通过利用数百万社交媒体用户的品牌参与数据构建品牌 - 用户网络,并使用深度自动编码器技术将其压缩到低维空间,研究人员能够捕捉数千个品牌和多个类别之间的潜在关系。此外,分析约13万名客户对航空公司服务的评价时也应用了神经网络,通过详细