声明:以下部分内容含AI生成
这是一个非常典型的运用两独立样本非参数检验解决实际问题的案例。
案例解释与总结
1. 研究目的与背景
-
研究问题:分析不同性别(男/女)学生的肺呼量(mmL)是否存在显著差异。
-
变量说明:
-
因变量:肺呼量(mmL),这是一个连续型数值变量。
-
分组变量:性别,这是一个二分类变量(男=1,女=2)。
-
-
方法选择:研究者首先考虑了两独立样本t检验,但t检验的前提条件是数据需满足独立性、正态性和方差齐性。很可能在初步分析中发现肺呼量数据不满足正态分布或方差齐性要求,因此转而使用非参数检验。非参数检验不依赖于总体分布的具体形式,适用性更广。
2. 方法选择:Mann-Whitney U 检验
在SPSS提供的四种非参数检验方法中,本例选择了 Mann-Whitney U 检验。这是最常用、效力最高的用于比较两个独立样本位置(中位数)差异的非参数检验方法,是t检验的“非参数版本”,也称为Wilcoxon秩和检验。
-
核心思想:不理睬数据的原始值,只关注数据的秩(排名)。
-
混合排序:将男生和女生所有人的肺呼量数据混合在一起,从小到大排序,并赋予秩次(第1名、第2名...)。
-
计算秩和:分别计算男生组和女生组的秩和(Wilcoxon W)。
-
比较秩和:如果两个组的肺呼量分布没有差异,那么它们的平均秩应该大致相等。如果其中一个组的秩和显著地高,说明该组的测量值普遍更大。
-
3. 结果解读
-
图13-12(A) 秩表:
-
男生 (N=105):平均秩为 425.49
-
女生 (N=112):平均秩为 158.27
-
解读:男生的平均秩远高于女生,这意味着在混合排序中,男生的肺呼量数据普遍排在更靠后的位置,即男生的肺呼量值普遍大于女生。
-
-
图13-12(B) 检验统计量表:
-
Mann-Whitney U:4095.000。这是根据一个特定的公式(涉及两组的样本量和秩和)计算出的统计量,是检验的直接结果。U值越小,差异越大。
-
Wilcoxon W:45423.000。这就是女生组的秩和。
-
Z值:-19.032。为了便于从标准正态分布中计算p值,软件会将U值转换为Z分数。Z值的绝对值越大,代表当前观察到的差异由抽样误差导致的概率越小。
-
渐近显著性(双尾):.000。这就是p值。报告中通常写为
p < 0.001
。这个值远小于常用的显著性水平0.05。
-
为了更好地理解,我们可以做一个简单的类比:
研究问题:比较两个班级(A班和B班)的考试成绩。
数据处理:将两个班所有学生的成绩混合在一起,进行排名。
Wilcoxon W:就像是 B班所有学生的名次之和。这个数字本身很大(因为B班人多或排名靠后),但光看这个数字你不知道它意味着什么。
Mann-Whitney U:像是根据两个班的名次之和计算出的一个 “优势分数”。这个分数能直接告诉你A班是否显著优于B班。
Z 值和 p 值:像是根据“优势分数”和班级人数,换算出的一个 “标准分数” 和 “获胜概率”,从而得出最终结论。
所以,Wilcoxon W 的意义在于:
它是一个基础的计算数值,是生成最终有解释力的统计量(U和Z)的必要步骤。它在软件输出中作为一个标识符出现,告诉我们其中一个组的秩和具体是多少,从而将计算过程透明化,并连接了相关的统计检验方法。在直接解读结果时,我们关注的是由它参与计算得到的 U 值、Z 值和 p 值,而不是 W 值本身。
4. 结论
-
统计结论:Mann-Whitney U检验结果表明,不同性别学生的肺呼量差异具有高度的统计学意义(Z = -19.032, p < 0.001)。
-
专业结论:男生的肺呼量显著高于女生。这与普遍的生理常识是一致的,男性的肺活量通常大于女性。
对其他三种方法的简要说明
您提到了SPSS提供的四种方法,本例正确选择了最合适的Mann-Whitney U检验。其他三种方法在此场景下不如它适用:
-
K-S检验 (Kolmogorov-Smirnov):主要检验两个总体分布是否完全相同(包括形状、位置、尺度等)。它更敏感于分布形状(如偏度、峰度)的差异,而不仅仅是位置(中位数)的差异。本例只关心“男的是否比女的高”,而不是关心两者分布形态是否一样,故Mann-Whitney U更精准。
-
W-W检验 (Wald-Wolfowitz runs):检验两样本是否来自同一个总体,通过分析游程数(即连续同组数据的序列)来判断。游程数过少或过多都拒绝原假设。但其检验效能通常低于Mann-Whitney U检验,即不如后者能更有效地探测出真实存在的差异。
-
摩西极端反应检验:适用于检验一个群体是否比另一个群体更容易出现极端值(特别大或特别小的反应)。例如,测试一种新药是否会导致少数患者出现极其严重的副作用。本研究关心的是整体趋势(男生普遍更高),而不是极端值,故此方法不适用。
总结
-
核心要点:当比较两个独立组(如男 vs. 女,实验组 vs. 对照组)的连续变量(如肺呼量)时,如果数据不满足t检验的条件(正态性或方差齐性),Mann-Whitney U检验(Wilcoxon秩和检验)是首选的替代方法。
-
结果报告:在论文中报告时,应提供统计量(U值或Z值)、p值,并结合各组的中位数(而非均值)来描述差异大小。例如:“采用Mann-Whitney U检验进行数据分析,结果显示男性肺呼量中位数显著高于女性(U = 4095, Z = -19.032, p < 0.001)。”
-
效应大小:严谨的报告还应包括效应大小(Effect Size),例如r = Z/√N,以衡量差异的实际大小,而不仅仅是统计学意义。本例中
≈ 19.032 / 24.2899 ≈ 0.783。这是一个巨大的效应量,进一步证实了差异非常明显。
小效应: r = 0.10
中等效应: r = 0.30
大效应: r = 0.50
r = 0.783
远远超过了 0.50,这表示男女生在肺呼量上的差异不仅仅具有统计学意义(p < 0.001),而且是一个巨大的、非常显著的效应。 在实际应用中,这意味着仅凭性别就可以预测肺呼量的很大一部分变异,两者关联性极强。
手算案例:Mann-Whitney U检验
我们来设计一个非常简单的手算案例,演示如何进行 Mann-Whitney U 检验。
案例背景
我们想比较公司里5名男性和5名女性员工的月度销售业绩(单位:万元),看看是否存在显著差异。
原始数据:
-
男性 (Group 1): 22, 25, 19, 28, 30
-
女性 (Group 2): 18, 20, 15, 17, 23
手算步骤
第1步:提出假设
-
零假设 (H₀):男女员工的销售业绩分布相同。(男性和女性的销售业绩中位数无差异)
-
备择假设 (H₁):男女员工的销售业绩分布不同。(男性和女性的销售业绩中位数存在差异)
第2步:混合数据并编秩
将两组所有数据混合在一起,从小到大排序,并赋予秩次(Rank)。如果遇到相同的数值(结,Tie),则取它们秩次的平均值。
原始值 | 组别 | 排名 | 秩次 (Rank) |
---|---|---|---|
15 | 女 | 1 | 1 |
17 | 女 | 2 | 2 |
18 | 女 | 3 | 3 |
19 | 男 | 4 | 4 |
20 | 女 | 5 | 5 |
22 | 男 | 6 | 6 |
23 | 女 | 7 | 7 |
25 | 男 | 8 | 8 |
28 | 男 | 9 | 9 |
30 | 男 | 10 | 10 |
(此数据中没有重复值,所以秩次就是简单的顺序排名)
第3步:计算秩和
分别计算两个组的秩和(Sum of Ranks)。
-
男性组 (Group 1) 秩和 R₁:
R₁ = 4 (19) + 6 (22) + 8 (25) + 9 (28) + 10 (30) = 37 -
女性组 (Group 2) 秩和 R₂:
R₂ = 1 (15) + 2 (17) + 3 (18) + 5 (20) + 7 (23) = 18
验证: 总秩和应该等于 1+2+3+...+10 = 55。R₁ + R₂ = 37 + 18 = 55,计算正确。
第4步:计算 Mann-Whitney U 统计量
我们为两个组分别计算 U 值,公式如下:
其中:
-
n₁
= 5 (男性人数) -
n₂
= 5 (女性人数) -
R₁
= 37 (男性秩和) -
R₂
= 18 (女性秩和)
计算 U₁ (基于男性组):
计算 U₂ (基于女性组):
Mann-Whitney U 值是 U₁ 和 U₂ 中较小的那个。
所以,U = min(U₁, U₂) = min(3, 22) = 3
第5步:查表判断显著性
我们需要使用 Mann-Whitney U 检验临界值表(如下所示,这是一个简化的示例表,用于双尾检验,α=0.05)。
n₁ \ n₂ | 5 |
---|---|
5 | 2 |
查表结论:
我们的计算值 U = 3,而临界值是 2。
因为 U = 3 > 2,所以我们的结果不显著。(我们未能拒绝零假设)
第6步:得出结论
在 α = 0.05 的显著性水平上,Mann-Whitney U 检验的结果不显著(U = 3, p > 0.05)。
结论: 没有足够证据表明男性和女性员工的月度销售业绩存在显著差异。
总结
这个过程清晰地展示了 Mann-Whitney U 检验的手算逻辑:
-
混合编秩:忽略分组,只看所有数据的相对大小。
-
比较秩和:如果零假设成立,两组的平均秩应该差不多。如果其中一个组的秩和明显更大,说明该组的数值普遍更大。
-
计算U值:U值量化了“一个组的值有多少机会排在另一个组前面”的可能性。U值越小,差异越大。
-
与临界值比较:根据样本量查表,判断U值是否小到了足以拒绝零假设的程度。
在这个小样本案例中,虽然男性的销售数据(22, 25, 19, 28, 30)看上去比女性(18, 20, 15, 17, 23)要高,但经过非参数检验后,发现这种差异可能只是由偶然因素导致的,并不具有统计学意义。这体现了统计检验的重要性——我们不能仅凭平均数的大小就下结论。