数据质量与值插补:从偏差检测到数据修复

立即解锁
发布时间: 2025-09-07 01:56:10 阅读量: 8 订阅数: 43 AIGC
PDF

数据清洗的艺术与实践

# 数据质量与值插补:从偏差检测到数据修复 ## 1. 过采样民意调查 在数据收集过程中,民意调查公司常常会故意采用过采样(过度选择)的方法。这种方法与本章中讨论的加权问题有所不同,也和后续会提到的值插补中的机械过采样不同。其核心思路在于,当某个特定类别或数值范围在总体人群中较为罕见时,该人群段的整体参数空间可能填充不足。另外,即使过采样的类别在总体中较为常见,但如果分析目的需要对该子群体有更高的辨别度,也会采用过采样。 过采样的应用并不局限于民意调查公司对人类受试者的调查。在一些完全不相关的领域,如回旋加速器中产生的罕见粒子,或研究森林中的稀有植物,过采样同样具有意义。负责任的数据收集者,如皮尤研究中心,会明确记录其过采样方法以及对总体分布的预期。相关2010年民意调查的详细信息可在[此处](https://www.pewsocialtrends.org/2010/02/24/millennials-confident-connected-open-to-change/)查看。不过,为了完成后续练习,建议先不参考这些文档,假设收到的数据缺乏足够的文档和元数据,这在现实的数据处理中是很常见的情况。原始数据可从[这里](https://www.gnosis.cx/cleaning/pew-survey.csv)获取。 ### 1.1 任务1:判断年龄过采样或欠采样情况 读取数据后,需要判断哪些年龄段被故意过采样或欠采样以及程度如何。为每个观测添加一个名为`sampling_multiplier`的新列,以1x作为“中性”值。例如,如果认为40岁的受试者被过选了5倍,则赋值为5.0;如果认为50岁的受试者被系统地欠选了2倍,则赋值为0.5。需要注意的是,2010年美国人口的年龄分布并非均匀的。由于样本量约为2000,可能的年龄有75种,因此子组大小的一些不均匀可能是由随机性导致的,这种随机变化仍应编码为1.0。 ### 1.2 任务2:对分类字段进行布尔编码 部分分类字段似乎编码了相关但不同的二元值。例如,关于技术的问题可能没有针对数据科学目标进行理想编码: ```python import pandas as pd pew = pd.read_csv('data/pew-survey.csv') print(list(pew.q23a.unique())) ``` 输出结果如下: ``` ['New technology makes people closer to their friends and family', 'New technology makes people more isolated', '(VOL) Both equally', "(VOL) Don't know/Refused", '(VOL) Neither equally'] ``` 由于前两个描述可能被受访者同时相信或都不相信,将它们分别编码为布尔值是合理的。在重新编码时,还需要决定如何处理拒绝回答的情况。确定哪些分类值应更好地编码为多个布尔值,并相应地修改数据集,同时解释和说明每个字段的决策依据。 ### 1.3 任务3:判断其他字段是否过采样 除年龄外,还需判断是否有其他人口统计字段被过采样。虽然列名大多比较隐晦,但可以假设那些表示意见程度的定性答案字段是被调查的因变量,而非人口统计自变量。例如: ```python print(list(pew.q1.unique())) ``` 输出结果如下: ``` ['Very happy', 'Pretty happy', 'Not too happy', "(VOL) Don't know/Refused"] ``` 为完成此任务,可能需要参考外部数据源。例如,可以查找2010年美国时区的大致人口分布,并与数据集中的分布进行比较: ```python print(list(pew.timezone.unique())) ``` 输出结果如下: ``` ['Eastern', 'Central', 'Mountain', 'Pacific'] ``` ### 1.4 任务4:对有序编码字段进行重新编码 一些字段,如任务3中的`q1`,明显是有序编码的。虽然无法直接为“非常开心:相当开心”与“相当开心:不太开心”分配相对比例,但这三个值的排名是明确的,将它们编码为序数1、2和3是合理且有帮助的。当然,还需要对拒绝回答的情况进行编码。重新编码所有相关字段,以利用这些直观的领域知识。 ## 2. 数据偏差与周期性 数据集中的偏差是一个常见问题。数据集很少能完全代表总体,往往会从总体中进行有偏向的选择。有时这种偏差是有意的,是为了填充参数空间;有时则反映了现实中数量或类别的分布情况。然而,数据收集、整理、转录或聚合过程中的一些因素也可能引入更微妙的偏差,需要在数据分析和建模中进行修复。检测偏差是解决问题的第一步。 与偏差相关但略有不同的是数据的周期性。当数据以某种方式排序(通常是时间序列)时,特定的数据系列往往包含“信号”和“变化”两个部分,将它们分离通常是有意义的。信号在某种程度上也是一种偏差,它提供了在时间T测量值接近M的更高概率。识别信号是数据分析的重要方面,同时识别与信号的偏差也能提供额外的有趣信息。 之前关于异常检测的内容为识别数据集中统计上不太可能的值提供了一些线索。但在实际应用中,我们更关注特定领域的问题,利用对干净数据模式的预期来判断实际数据是否存在问题。这些模式可能需要通过自定义代码来表达,而无法用通用的统计测试来表述。 ## 3. 值插补的必要性与记录 数据可能由于各种原因出现缺失或不可信的情况。在处理这些问题时,有时直接丢弃不良数据是最佳选择,但很多时候通过某种方式插补值以保留观测中的其他特征更为有用。在进行值插补时,需要明确区分插补值和原始数据值。可以通过为每个数据项添加明确注释的方式来记录,更常见的做法是维护不同版本的数据以及可重复执行修改的脚本。 ### 3.1 插补与丢弃记录的决策考虑 在决定是插补值还是丢弃记录时,并非只能二选一。以下是一些需要考虑的因素: - **数据量**:如果数据有限,保留尽可能多的记录至关重要,因为机器学习模型通常数据越多表现越好。但如果丢弃缺失数据后仍有大量记录,插补的重要性可能会降低。 - **缺失数据的偏差性**:如果缺失记录可能与整体数据集具有不同的特征或模式,那么挽救这些记录就显
corwn 最低0.47元/天 解锁专栏
买1年送3月
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

张_伟_杰

人工智能专家
人工智能和大数据领域有超过10年的工作经验,拥有深厚的技术功底,曾先后就职于多家知名科技公司。职业生涯中,曾担任人工智能工程师和数据科学家,负责开发和优化各种人工智能和大数据应用。在人工智能算法和技术,包括机器学习、深度学习、自然语言处理等领域有一定的研究
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

PHP变量与函数全面解析

### PHP变量与函数全面解析 #### 1. PHP变量概述 PHP中的变量与shell变量类似,但PHP变量可以存储不同类型的值。引用变量时,无论读取还是设置值,都要在变量名前使用美元符号($)。PHP变量的类型主要有以下几种: - 字符串(Strings) - 整数(Integers) - 浮点数(Floats) - 数组(Arrays) - 对象(Objects) - 空值(Nulls) 下面我们详细探讨这些变量类型。 #### 2. 字符串变量 字符串是由引号括起来的一系列字符。可以使用单引号(')或双引号(")来定义字符串,但必须使用相同类型的引号开始和结束字符串,并且如果

构建跨平台任务列表应用:iOS与macOS的数据存储与界面适配

# 构建跨平台任务列表应用:iOS 与 macOS 的数据存储与界面适配 ## 1. 实现 iOS 任务数据的持久化存储 在开发 iOS 任务列表应用 TahDoodle 时,我们发现当程序退出后,所有数据都会丢失,下次启动应用时又会回到示例数据。为了解决这个问题,我们需要实现任务数据的持久化存储。 ### 1.1 确定存储位置 首先,我们需要获取一个可以存储任务数据的本地 URL。这可以通过 `FileManager` 来实现: ```swift class TaskStore: ObservableObject { private let fileURL: URL = {

Mac系统安全与实用工具全解析

# Mac系统安全与实用工具全解析 ## 一、Mac系统更新与数据安全保护 ### 1.1 系统更新提示 若在程序坞的App Store图标上看到小数字,这意味着有相应数量的更新在等待。此时,需启动Mac App Store,然后点击“更新”标签来进行更新操作。 ### 1.2 数据防窥探安全措施 为保护文件不被局域网内其他用户或能物理访问Mac的用户干扰,可采取以下安全措施: - **阻止或限制连接**: - 打开“系统偏好设置”应用程序(可从“应用程序”文件夹、菜单或程序坞中启动)。 - 点击“共享”图标,打开“共享”系统偏好设置面板。 - 若禁用“共享”面板中

Unity游戏部署指南:从桌面到网页

# Unity游戏部署指南:从桌面到网页 ## 1. 桌面平台部署 ### 1.1 开始构建桌面应用 初次学习使用Unity构建游戏时,最简单的起点是将游戏部署到桌面计算机,支持的桌面系统包括Windows、Mac和Linux。由于Unity本身可在桌面计算机上运行,因此你可以为正在使用的计算机构建应用。 以下是构建桌面应用的具体步骤: 1. 打开任意Unity项目。任何项目都适用,建议在不同的构建过程中使用不同的项目,以验证Unity可以将任何项目构建到任何平台。 2. 选择“File > Build Settings”打开构建设置窗口。默认情况下,当前平台会设置为PC、Mac和Linu

提升Windows使用便捷性的实用指南

### 提升Windows使用便捷性的实用指南 在日常使用电脑的过程中,我们常常会遇到各种操作上的不便,尤其是对于那些有行动或灵活性问题的用户。不过,Windows系统提供了一系列实用的功能和设置,能够显著提升使用的便捷性。下面将为大家详细介绍如何让键盘更易使用以及通过语音控制Windows的方法。 #### 让键盘更易使用 如果你在操作键盘时存在一定困难,可通过激活以下几个功能来增强键盘的可访问性: - **粘滞键(Sticky keys)**:该功能允许你一次按下一个键来实现多键组合快捷键,比如 `Ctrl + C` 和 `Alt + Tab` 等。 - **筛选键(Filter ke

提升MacBook使用效率与故障排除指南

### 提升MacBook使用效率与故障排除指南 #### 1. Keynote幻灯片与备注打印 如果你需要展示包含大量信息的长幻灯片,那么打印包含幻灯片缩略图和备注的讲义是个不错的选择。而且,除了纸质讲义,你还可以使用Keynote创建电子PDF文件,让观众从你的网站下载。如果你是教育工作者,还能结合交互式白板使用Keynote。 打印幻灯片和备注的步骤如下: 1. 在Keynote中,选择“文件”➪“打印”,或者按下⌘ + P。Keynote会显示打印面板,若有需要,可点击面板底部的“显示详细信息”按钮展开面板以显示所有设置。 2. 选择以下格式之一(每种格式会显示不同的布局选项):

SwiftUI状态管理与UIKit视图集成全解析

### SwiftUI 状态管理与 UIKit 视图集成全解析 #### 1. SwiftUI 状态管理 在 SwiftUI 中,状态管理是构建动态用户界面的关键。以下将介绍几种常用的状态管理方式。 ##### 1.1 使用 @ObservedObject 在 `ContentView.swift` 文件中,我们可以展示当前选择的搜索引擎。以下是具体代码: ```swift import SwiftUI struct ContentView: View { @ObservedObject var searchEngine = SearchEngineChoice() v

探索云计算网络与Windows365的未来

# 探索云计算网络与 Windows 365 的未来 ## 1. 网络基础:互联网与云 互联网,也被称为“云”,是一个由众多网络相互连接而成的庞大网络体系。由于其连接方式极为复杂,难以用图表清晰展示,所以我们用“云”来简化表述。 ### 1.1 微软网络架构 想象一下,你购买了一批计算机,将它们放置在车库的架子上,并接入本地网络,这样就创建了一个数据中心。像微软这样的大公司也会构建数据中心,而且规模巨大。你可以通过网页浏览器和搜索引擎查看微软数据中心的图片,其规模令人惊叹。你的云 PC 就存放在这样的数据中心里(同时在其他地方有备份以确保冗余),并通过互联网与之连接。 微软等公司不仅拥有

媒体管理与收听指南

# 媒体管理与收听指南 ## 一、音乐库管理 ### (一)处理大容量音乐库 拥有大量音乐时,会面临两个问题:一是在音乐应用中管理所有音乐,二是将音乐同步到无法容纳所有内容的移动设备。为了更好地管理音乐文件,有以下建议: 1. **精确标签**:仔细为音乐添加标签,以便能轻松找到所需音乐。使用更多的音乐流派可以更方便地对音乐收藏进行分类和筛选。在音乐应用的“信息”对话框中输入流派名称,即可为音乐添加流派标签。 2. **清理音乐**:检查不常听的音乐,创建一个智能播放列表,规则设置为“[最后播放时间] [不在最后] 6 [个月]”,查看符合条件的音乐,将这些不常听的音乐移至第二个音乐库。这样

云计算与混合云:技术解析与应用指南

### 云计算与混合云:技术解析与应用指南 #### 1. 迈向云端的建议 在领略到云计算的魅力后,若想将网络迁移至云端,可参考以下建议: - **避免依赖劣质网络连接**:采用云计算前,勿依赖消费级网络连接。消费级网络虽有时速度快,但故障修复时间不定。建议投资高速企业级网络连接,其可随业务需求增长而扩展。 - **评估已使用的云应用**:若使用 Gmail 而非 Exchange 处理邮件,表明已在使用云服务。其他常见云服务包括远程 Web 或 FTP 主机、Dropbox 等文件共享服务、Carbonite 等在线备份服务以及薪资服务等。 - **逐步迁移至云端**:先确定一个适合迁移至