目录:
- 偏态(Skewness)
- 定义
- 分类与性质
- 公式与解析
- 示例
- 偏态分析
- 峰态(Kurtosis)
- 定义
- 分类与性质
- 公式与解析
- 示例
- 峰态分析
- 偏态与峰态综合分析
- 定义与关系
- 公式与示例
- 顺序统计量(Order Statistics)
- 定义
- 分布函数
- 推导过程
- 示例
- 经验分布函数(Empirical Distribution Function, EDF)
- 定义
- 公式
- 特性与应用
- 顺序统计量的经验分布函数
- 定义
- 表达式与推导
- 重复值的影响
- 顺序统计量和经验分布函数在去除噪声中的应用
- 顺序统计量去噪方法
- 实际应用
1. 偏态(Skewness)
定义:
偏态(Skewness)是用于衡量分布的不对称性的一种统计量。它描述了分布相对于均值的不对称性,特别是分布的尾部形状。偏态反映了分布的偏斜方向,告诉我们数据集中于均值两侧时,哪一侧的数据更加倾向于“拉长”。
分类与性质:
-
正偏态(右偏态):
- 定义:正偏态表示分布的右尾较长,即数据的高值较为稀疏,但远离均值,极端值拉长了分布的右侧。
- 特性:正偏态中,均值大于中位数,中位数大于众数。数据的大部分集中在分布的左侧。
- 示例:如收入分布,大多数人收入集中在较低范围,而少数高收入者会拉长右尾。
正偏态分布图:
| /
| /
| /
| /
|/
----------------------
^
中心向左
-
负偏态(左偏态):
- 定义:负偏态表示分布的左尾较长,即数据的低值较为稀疏,极端值拉长了分布的左侧。
- 特性:负偏态中,均值小于中位数,中位数小于众数。数据的大部分集中在分布的右侧。
- 示例:如考试成绩,大部分学生得到较高分数,而少数低分学生拉长左尾。
负偏态分布图:
|\
| \
| \
| \
| \
----------------------
^
中心向右
-
对称分布(无偏态):
- 定义:对称分布没有偏态,数据分布在均值两侧对称,左尾和右尾长度相同。
- 示例:正态分布就是一个无偏态的典型例子。
对称分布图:
/\
/ \
/ \
/ \
-------------------
对称分布
公式与解析:
偏态系数的公式如下:
[
\text{Skewness} = \frac{E[(X - \mu)3]}{\sigma3}
]
其中:
- (E[(X - \mu)^3]) 是数据与均值的三次偏差的期望,用于度量分布的偏斜方向。
- (\sigma) 是数据的标准差,标准化数据集的偏差,使得不同尺度的数据可比。
解释:
- 偏态系数 (> 0):表示正偏态(右偏态),右尾较长。
- 偏态系数 (< 0):表示负偏态(左偏态),左尾较长。
- 偏态系数 (= 0):表示分布对称,没有偏态。
示例:
假设有一组数据 (X = [2, 5, 6, 8, 10, 15, 100]),我们可以通过计算偏态系数来判断数据的偏斜情况。由于100这个值远离数据的其余部分,拉长了分布的右尾,偏态系数将会大于 0,表示正偏态。
计算代码示例(Python):
import numpy as np
from scipy.stats import skew
data = [2, 5