数据质量与值插补:从偏差检测到数据修复
立即解锁
发布时间: 2025-09-07 01:56:10 阅读量: 8 订阅数: 43 AIGC 


数据清洗的艺术与实践
# 数据质量与值插补:从偏差检测到数据修复
## 1. 过采样民意调查
在数据收集过程中,民意调查公司常常会故意采用过采样(过度选择)的方法。这种方法与本章中讨论的加权问题有所不同,也和后续会提到的值插补中的机械过采样不同。其核心思路在于,当某个特定类别或数值范围在总体人群中较为罕见时,该人群段的整体参数空间可能填充不足。另外,即使过采样的类别在总体中较为常见,但如果分析目的需要对该子群体有更高的辨别度,也会采用过采样。
过采样的应用并不局限于民意调查公司对人类受试者的调查。在一些完全不相关的领域,如回旋加速器中产生的罕见粒子,或研究森林中的稀有植物,过采样同样具有意义。负责任的数据收集者,如皮尤研究中心,会明确记录其过采样方法以及对总体分布的预期。相关2010年民意调查的详细信息可在[此处](https://www.pewsocialtrends.org/2010/02/24/millennials-confident-connected-open-to-change/)查看。不过,为了完成后续练习,建议先不参考这些文档,假设收到的数据缺乏足够的文档和元数据,这在现实的数据处理中是很常见的情况。原始数据可从[这里](https://www.gnosis.cx/cleaning/pew-survey.csv)获取。
### 1.1 任务1:判断年龄过采样或欠采样情况
读取数据后,需要判断哪些年龄段被故意过采样或欠采样以及程度如何。为每个观测添加一个名为`sampling_multiplier`的新列,以1x作为“中性”值。例如,如果认为40岁的受试者被过选了5倍,则赋值为5.0;如果认为50岁的受试者被系统地欠选了2倍,则赋值为0.5。需要注意的是,2010年美国人口的年龄分布并非均匀的。由于样本量约为2000,可能的年龄有75种,因此子组大小的一些不均匀可能是由随机性导致的,这种随机变化仍应编码为1.0。
### 1.2 任务2:对分类字段进行布尔编码
部分分类字段似乎编码了相关但不同的二元值。例如,关于技术的问题可能没有针对数据科学目标进行理想编码:
```python
import pandas as pd
pew = pd.read_csv('data/pew-survey.csv')
print(list(pew.q23a.unique()))
```
输出结果如下:
```
['New technology makes people closer to their friends and family',
'New technology makes people more isolated',
'(VOL) Both equally',
"(VOL) Don't know/Refused",
'(VOL) Neither equally']
```
由于前两个描述可能被受访者同时相信或都不相信,将它们分别编码为布尔值是合理的。在重新编码时,还需要决定如何处理拒绝回答的情况。确定哪些分类值应更好地编码为多个布尔值,并相应地修改数据集,同时解释和说明每个字段的决策依据。
### 1.3 任务3:判断其他字段是否过采样
除年龄外,还需判断是否有其他人口统计字段被过采样。虽然列名大多比较隐晦,但可以假设那些表示意见程度的定性答案字段是被调查的因变量,而非人口统计自变量。例如:
```python
print(list(pew.q1.unique()))
```
输出结果如下:
```
['Very happy', 'Pretty happy', 'Not too happy', "(VOL) Don't know/Refused"]
```
为完成此任务,可能需要参考外部数据源。例如,可以查找2010年美国时区的大致人口分布,并与数据集中的分布进行比较:
```python
print(list(pew.timezone.unique()))
```
输出结果如下:
```
['Eastern', 'Central', 'Mountain', 'Pacific']
```
### 1.4 任务4:对有序编码字段进行重新编码
一些字段,如任务3中的`q1`,明显是有序编码的。虽然无法直接为“非常开心:相当开心”与“相当开心:不太开心”分配相对比例,但这三个值的排名是明确的,将它们编码为序数1、2和3是合理且有帮助的。当然,还需要对拒绝回答的情况进行编码。重新编码所有相关字段,以利用这些直观的领域知识。
## 2. 数据偏差与周期性
数据集中的偏差是一个常见问题。数据集很少能完全代表总体,往往会从总体中进行有偏向的选择。有时这种偏差是有意的,是为了填充参数空间;有时则反映了现实中数量或类别的分布情况。然而,数据收集、整理、转录或聚合过程中的一些因素也可能引入更微妙的偏差,需要在数据分析和建模中进行修复。检测偏差是解决问题的第一步。
与偏差相关但略有不同的是数据的周期性。当数据以某种方式排序(通常是时间序列)时,特定的数据系列往往包含“信号”和“变化”两个部分,将它们分离通常是有意义的。信号在某种程度上也是一种偏差,它提供了在时间T测量值接近M的更高概率。识别信号是数据分析的重要方面,同时识别与信号的偏差也能提供额外的有趣信息。
之前关于异常检测的内容为识别数据集中统计上不太可能的值提供了一些线索。但在实际应用中,我们更关注特定领域的问题,利用对干净数据模式的预期来判断实际数据是否存在问题。这些模式可能需要通过自定义代码来表达,而无法用通用的统计测试来表述。
## 3. 值插补的必要性与记录
数据可能由于各种原因出现缺失或不可信的情况。在处理这些问题时,有时直接丢弃不良数据是最佳选择,但很多时候通过某种方式插补值以保留观测中的其他特征更为有用。在进行值插补时,需要明确区分插补值和原始数据值。可以通过为每个数据项添加明确注释的方式来记录,更常见的做法是维护不同版本的数据以及可重复执行修改的脚本。
### 3.1 插补与丢弃记录的决策考虑
在决定是插补值还是丢弃记录时,并非只能二选一。以下是一些需要考虑的因素:
- **数据量**:如果数据有限,保留尽可能多的记录至关重要,因为机器学习模型通常数据越多表现越好。但如果丢弃缺失数据后仍有大量记录,插补的重要性可能会降低。
- **缺失数据的偏差性**:如果缺失记录可能与整体数据集具有不同的特征或模式,那么挽救这些记录就显
0
0
复制全文
相关推荐









