新手村:统计量均值、中位数、标准差、四分位数
统计量定义与讲解
统计量 | 定义 | 计算公式 | 示例说明 |
---|---|---|---|
均值 | 数据集中的所有数值之和除以数值的个数。 | Mean=∑i=1nxin\text{Mean} = \frac{\sum_{i=1}^{n} x_i}{n}Mean=n∑i=1nxi | 对于数据集 [1, 2, 3, 4, 5],均值为 (1+2+3+4+5)/5=3(1+2+3+4+5)/5 = 3(1+2+3+4+5)/5=3 |
中位数 | 将数据集排序后位于中间位置的数值。如果数据集长度为偶数,则取中间两个数的平均值。 | 排序后取中间值(或中间两个数的平均值) | 对于数据集 [1, 2, 3, 4, 5],中位数为 3;对于 [1, 2, 3, 4],中位数为 (2+3)/2=2.5(2+3)/2 = 2.5(2+3)/2=2.5 |
标准差 | 衡量数据集内数值分布的离散程度。 | Standard Deviation=∑i=1n(xi−μ)2n\text{Standard Deviation} = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}}Standard Deviation=n∑i=1n(xi−μ)2 | 对于数据集 [1, 2, 3, 4, 5],标准差约为 1.414 |
四分位数 | 将数据集分为四个等份,分别对应第25%、第50%(即中位数)、第75%的位置上的值。 | Q1(第一四分位数):下四分位数;Q2(第二四分位数):中位数;Q3(第三四分位数):上四分位数 | 对于数据集 [1, 2, 3, 4, 5, 6, 7, 8],Q1 = 2.25, Q2 = 4.5, Q3 = 6.75 |
示例计算
假设我们有一个数据集:[1, 2, 3, 4, 5, 6, 7, 8]
均值
Mean=1+2+3+4+5+6+7+88=368=4.5 \text{Mean} = \frac{1 + 2 + 3 + 4 + 5 + 6 + 7 + 8}{8} = \frac{36}{8} = 4.5 Mean=81+2+3+4+5+6+7+8=836=4.5
中位数
排序后的数据集为 [1, 2, 3, 4, 5, 6, 7, 8]
中位数是中间两个数的平均值:
Median=4+52=4.5 \text{Median} = \frac{4 + 5}{2} = 4.5 Median=24+5=4.5
标准差
首先计算每个数值与均值的差的平方:
(1−4.5)2=12.25,(2−4.5)2=6.25,(3−4.5)2=2.25,(4−4.5)2=0.25,(5−4.5)2=0.25,(6−4.5)2=2.25,(7−4.5)2=6.25,(8−4.5)2=12.25 (1-4.5)^2 = 12.25, (2-4.5)^2 = 6.25, (3-4.5)^2 = 2.25, (4-4.5)^2 = 0.25, \\ (5-4.5)^2 = 0.25, (6-4.5)^2 = 2.25, (7-4.5)^2 = 6.25, (8-4.5)^2 = 12.25 (1−4.5)2=12.25,(2