2、数据处理与统计分析全解析

数据处理与统计分析全解析

1. 数据清洗与转换

原始数据通常不能直接使用,其中可能存在错误,如缺失值、重复值或过于复杂的结构。即使是微小的不准确也可能影响结果,导致第I类或第II类错误。因此,在分析之前,必须对收集的数据进行清洗和处理,以去除或修正这些错误。

1.1 数据清洗任务

  • 去除缺失数据 :使用 rmmissing 函数可以从数组或表中删除缺失条目。缺失值根据数据类型定义,如 NaN NaT <missing> <undefined> {''} 等。示例代码如下:
File = readtable("missingdata.csv", VariableNamingRule = "preserve");
R = rmmissing(File);
  • 去除异常值 rmoutliers 函数可以根据指定的方法检测并去除数据中的异常值。以下是不同方法的描述:
    | 方法 | 描述 |
    | ---- | ---- |
    | “median” | 异常值定义为距离中位数超过三个缩放的中位数绝对偏差(MAD)的元素。缩放的MAD定义为$c \times median(abs(A