参考资料:R试验设计与数据分析——基于R语言应用
1、方差分析的基本思想
引起试验数据变异(波动)的原因主要有两类:一类是试验过程中随机因素的干扰或观测误差所引起的不可控制的波动;另一类是试验中处理方式不同或试验条件不同引起的可以控制的波动。方差分析的主要工作就是将观测数据的总变异(波动)按照变异的原因不同,分解为因子效应与试验误差,并对其做出统计分析,比较各种原因在总变异中所占的重要程度,以此作为进一步统计推断的依据,进而确定下一步的工作方向。
在科学试验中常常要探讨不同试验条件或处理方法对试验结果的影响。通常是比较不同试验条件下样本均值间的差异。方差分析时检验多组样本均值间的差异是否具有统计意义的一种方法。
方差分析的基本思想是:如果被考察的因素对试验结果没有显著的影响,即所讨论的各正态总体的均值相等,则试验数据的波动完全由随机误差引起;如果各正态总体均值不全相等,则表明试验数据的波动除了随机误差的影响外,还包括被考察因素效应的影响。为此,需要构造一个适当的统计量来描述数据的波动程度。这个统计量分解为两部分:一部分是纯随机误差造成的影响,另一部分是除随机误差的影响外来自于因素效应的影响。然后将这两部分进行比较,如果后者明显比前者大,就是活命因素的效应是显著的。
在进行方差分析时,数据需要满足三个假设条件:
①正态性:各个水平的观察数据必须服从正态分布
②方差齐性:即r个水平的正态总体的方差相等
③随机性:所有数据都相互独立。
在上述三个假定条件下,判断不同正态总体是否有显著影响,实际上也就是检验具有同方差的正态总体的均值是否相等。如果总体的均值相等,可以期望样本的均值也会很接近:样本的均值越接近,推断总体均值相等的证据也就越充分;样本均值越不同,推断总体均值不同的证据就越充分。
方差分析的假设检验:
①零假设H0:m组样本均值都相同,即μ1=μ2=···=μm
②备择假设H1:μi(i=1,2,···,m)不全相等,即至少有一个总体的均值是不同的,样本分别来自均值不同的正态总体。
假设实验只有一个因素A,有r(r>=2)各不同水平A1,A2,···,Ar,在水平Ai下进行ni次试验,得到观测数据为Xij,j=1,2,···,ni,i=1,2,···,r,则单因素方差模型可以表示为:
其中,μi是第i个总体的均值,是响应的试验误差。
比较因素A的r个水平的差异归结为比较这r个总体的均值,即假设检验H0:μ1=μ2=···=μr;H1:μi(i=1,2,···,r)不全相等。如果H0被拒绝,则说明因素A的各水平的效应之间有显著的差异;否则差异不显著。
为了导出H0的检验统计量,方差分析的关键是对全部数据的变异程度进行分解,而变异程度分解是建立在平方和分解和自由度分解的基础上。
S_T为总离差平方和(或称为总变异),它是所有数据与总平均值差的平方和,描述了所有观测数据的离散程度。经计算可以证明S_T可分解为两部分,即,其中:
S_E表示随机误差的影响,通常S_E为误差平方和或组内平方和。S_A表示在Ai水平的样本均值与总体均值之间的差异。S_A称为因素A的效应平方和或组间平方和。
公式表明总平方和S_T可按来源分解为两部分,一部分是误差平方和S_E,是由随机误差引起的;另一部分是因素A的平方和S_A,是由因素A的各水平的差异引起的。
经过统计分析可以得到,即
是
的无偏估计,且
。如果原假设H0成立,则有
,即此时
也是
的无偏估计,且
,并且S_A与S_E相互独立,因此当H0成立时,有:
于是,F(也称F比)可以作为H0的检验统计量,F比构成F分布,用F值与其临界值比较,推断各样本是否来自相同的童子。对于给定的显著性水平α,用表示F分布上的α分位点,若
,则拒绝原假设,认为因素A的r个水平有显著差异;反之则接受原假设,认为因素A的r个水平没有显著差异。也可以通过计算p值来决定是接受还是拒绝原假设。
通过上述的变异的分解可以看出,方差分析的基本思想就是根据试验设计的类型,将全部测量值的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,通过比较不同变异来源的均方,借助F分布作出统计推断,从而推断各种研究因素对试验结果有无影响。
样本均数比较的方差分析方法与试验设计类型密切相关。方差分析所分析的数据是按照特定的试验设计进行试验所得到的数据,不同的试验设计其总变异的分解有所不同。因此,应用方差分析时,除要求资料满足方差分析的应用条件外,还应结合具体试验设计来选择相应的方差分析方法。