第13章非参数检验【5】：2独立样本检验（Mann-Whitney U 检验）

羚风雯

已于 2025-09-10 13:36:49 修改

阅读量986

点赞数 19

CC 4.0 BY-SA版权

分类专栏： # SPSS实战与统计思维文章标签： Mann-Whitney U

于 2025-09-10 12:05:14 首次发布

本文链接：https://blog.csdn.net/xiang_gina/article/details/151399490

SPSS实战与统计思维专栏收录该内容

18 篇文章

订阅专栏

参考：SPSS实战与统计思维 - 武松编著 - 微信读书

声明：以下部分内容含AI生成

这是一个非常典型的运用两独立样本非参数检验解决实际问题的案例。

案例解释与总结

1. 研究目的与背景

研究问题：分析不同性别（男/女）学生的肺呼量（mmL）是否存在显著差异。
变量说明：
- 因变量：肺呼量（mmL），这是一个连续型数值变量。
- 分组变量：性别，这是一个二分类变量（男=1，女=2）。
方法选择：研究者首先考虑了两独立样本t检验，但t检验的前提条件是数据需满足独立性、正态性和方差齐性。很可能在初步分析中发现肺呼量数据不满足正态分布或方差齐性要求，因此转而使用非参数检验。非参数检验不依赖于总体分布的具体形式，适用性更广。

2. 方法选择：Mann-Whitney U 检验

在SPSS提供的四种非参数检验方法中，本例选择了 Mann-Whitney U 检验。这是最常用、效力最高的用于比较两个独立样本位置（中位数）差异的非参数检验方法，是t检验的“非参数版本”，也称为Wilcoxon秩和检验。

核心思想：不理睬数据的原始值，只关注数据的秩（排名）。
1. 混合排序：将男生和女生所有人的肺呼量数据混合在一起，从小到大排序，并赋予秩次（第1名、第2名...）。
2. 计算秩和：分别计算男生组和女生组的秩和（Wilcoxon W）。
3. 比较秩和：如果两个组的肺呼量分布没有差异，那么它们的平均秩应该大致相等。如果其中一个组的秩和显著地高，说明该组的测量值普遍更大。

3. 结果解读

图13-12（A）秩表：
- 男生 (N=105)：平均秩为 425.49
- 女生 (N=112)：平均秩为 158.27
- 解读：男生的平均秩远高于女生，这意味着在混合排序中，男生的肺呼量数据普遍排在更靠后的位置，即男生的肺呼量值普遍大于女生。
图13-12（B）检验统计量表：
- Mann-Whitney U：4095.000。这是根据一个特定的公式（涉及两组的样本量和秩和）计算出的统计量，是检验的直接结果。U值越小，差异越大。
- Wilcoxon W：45423.000。这就是女生组的秩和。
- Z值：-19.032。为了便于从标准正态分布中计算p值，软件会将U值转换为Z分数。Z值的绝对值越大，代表当前观察到的差异由抽样误差导致的概率越小。
- 渐近显著性（双尾）：.000。这就是p值。报告中通常写为 p < 0.001。这个值远小于常用的显著性水平0.05。

为了更好地理解，我们可以做一个简单的类比：

研究问题：比较两个班级（A班和B班）的考试成绩。

数据处理：将两个班所有学生的成绩混合在一起，进行排名。

Wilcoxon W：就像是 B班所有学生的名次之和。这个数字本身很大（因为B班人多或排名靠后），但光看这个数字你不知道它意味着什么。

Mann-Whitney U：像是根据两个班的名次之和计算出的一个 “优势分数”。这个分数能直接告诉你A班是否显著优于B班。

Z 值和 p 值：像是根据“优势分数”和班级人数，换算出的一个 “标准分数” 和 “获胜概率”，从而得出最终结论。

所以，Wilcoxon W 的意义在于：
它是一个基础的计算数值，是生成最终有解释力的统计量（U和Z）的必要步骤。它在软件输出中作为一个标识符出现，告诉我们其中一个组的秩和具体是多少，从而将计算过程透明化，并连接了相关的统计检验方法。在直接解读结果时，我们关注的是由它参与计算得到的 U 值、Z 值和 p 值，而不是 W 值本身。

4. 结论

统计结论：Mann-Whitney U检验结果表明，不同性别学生的肺呼量差异具有高度的统计学意义（Z = -19.032, p < 0.001）。
专业结论：男生的肺呼量显著高于女生。这与普遍的生理常识是一致的，男性的肺活量通常大于女性。

对其他三种方法的简要说明

您提到了SPSS提供的四种方法，本例正确选择了最合适的Mann-Whitney U检验。其他三种方法在此场景下不如它适用：

K-S检验 (Kolmogorov-Smirnov)：主要检验两个总体分布是否完全相同（包括形状、位置、尺度等）。它更敏感于分布形状（如偏度、峰度）的差异，而不仅仅是位置（中位数）的差异。本例只关心“男的是否比女的高”，而不是关心两者分布形态是否一样，故Mann-Whitney U更精准。
W-W检验 (Wald-Wolfowitz runs)：检验两样本是否来自同一个总体，通过分析游程数（即连续同组数据的序列）来判断。游程数过少或过多都拒绝原假设。但其检验效能通常低于Mann-Whitney U检验，即不如后者能更有效地探测出真实存在的差异。
摩西极端反应检验：适用于检验一个群体是否比另一个群体更容易出现极端值（特别大或特别小的反应）。例如，测试一种新药是否会导致少数患者出现极其严重的副作用。本研究关心的是整体趋势（男生普遍更高），而不是极端值，故此方法不适用。

总结

核心要点：当比较两个独立组（如男 vs. 女，实验组 vs. 对照组）的连续变量（如肺呼量）时，如果数据不满足t检验的条件（正态性或方差齐性），Mann-Whitney U检验（Wilcoxon秩和检验）是首选的替代方法。
结果报告：在论文中报告时，应提供统计量（U值或Z值）、p值，并结合各组的中位数（而非均值）来描述差异大小。例如：“采用Mann-Whitney U检验进行数据分析，结果显示男性肺呼量中位数显著高于女性（U = 4095, Z = -19.032, p < 0.001）。”
效应大小：严谨的报告还应包括效应大小（Effect Size），例如r = Z/√N，以衡量差异的实际大小，而不仅仅是统计学意义。本例中 ≈ 19.032 / 24.2899 ≈ 0.783。这是一个巨大的效应量，进一步证实了差异非常明显。

小效应： r = 0.10

中等效应： r = 0.30

大效应： r = 0.50

r = 0.783 远远超过了 0.50，这表示男女生在肺呼量上的差异不仅仅具有统计学意义（p < 0.001），而且是一个巨大的、非常显著的效应。 在实际应用中，这意味着仅凭性别就可以预测肺呼量的很大一部分变异，两者关联性极强。