数据处理与统计分析全解析
1. 数据清洗与转换
原始数据通常不能直接使用,其中可能存在错误,如缺失值、重复值或过于复杂的结构。即使是微小的不准确也可能影响结果,导致第I类或第II类错误。因此,在分析之前,必须对收集的数据进行清洗和处理,以去除或修正这些错误。
1.1 数据清洗任务
- 去除缺失数据 :使用
rmmissing
函数可以从数组或表中删除缺失条目。缺失值根据数据类型定义,如NaN
、NaT
、<missing>
、<undefined>
、{''}
等。示例代码如下:
File = readtable("missingdata.csv", VariableNamingRule = "preserve");
R = rmmissing(File);
- 去除异常值 :
rmoutliers
函数可以根据指定的方法检测并去除数据中的异常值。以下是不同方法的描述:
| 方法 | 描述 |
| ---- | ---- |
| “median” | 异常值定义为距离中位数超过三个缩放的中位数绝对偏差(MAD)的元素。缩放的MAD定义为$c \times median(abs(A