一. 协方差分析的基本思想和应用条件
协变量:影响处理效应而无法人为控制或难以控制的实验因素,称为协变量。
协方差分析:协方差分析可以消除协变量对处理效应的影响,将不同处理的处理效应真正地显现出来,它是一种将直线回归和方差分析结合起来的统计学分析方法
通过一个示例来理解下协变量和协方差分析
在上述例题中,样本分为3个治疗组,每个治疗组所用药物不同,这个分组变量就是想探究的处理因素X, 实验效应通过患者治疗前后的糖化血红蛋白的含量来反映,对资料进行统计,可以到如下所示的表格
其中患者初始的糖化血红蛋白含量是难以控制的定量因素,称为协变量X;试验的观察指标是患者治疗3个月后的糖化血红蛋白含量,称为应变量Y。
三个治疗组患者的初始糖化血红蛋白含量均数不同,且差异具有统计学意义,这意味着初始糖化血红蛋白含量与治疗药物的效应混杂,即患者治疗3个月后的糖化血红蛋白含量的多少除了与治疗药物有关,还受其初始糖化血红蛋白含量的影响。针对这种数据,我们就可以采用协方差分析。
协方差分析的应用条件:
一是与方差分析的应用条件相同,即理论上要求观察变量服从正态分布,各观察变量相互独立,各样本来自的总体方差齐性
二是各总体客观存在应变量对协变量的线性回归关系且斜率相同(即各组回归线平行),即要求各样本回归系数本身有统计学意义,且各样本回归系数间的差别无统计学意义
因此,在进行协方差分析时,必须先对样本资料进行正态性,方差齐性检验和回归平行的假设检验。
协方差分析的基本思想:
将定量变量X(指未加或难以控制的因素)对Y的影响看做是协变量,建立应变量Y随协变量X变化的线性回归关系,并利用这种回归关系把X值转化为相等后,在进行各组Y的修正均数的比较,其实质就是从Y的总平方和中扣除协变量X对Y的回归平方和,对残差平方和做进一步分解后再进行方差分析,以更好的评价处理因素的效应。
二. 协方差分析的步骤
1)计算校正数和总变异的离均差平方和,公式如下
2)计算组间离均差平方和,积和及自由度
3)计算组内误差平方和与自由度
4)计算校正后的应变量Y的总平方和与自由度,公式如下
5)计算校正后的应变量Y的误差平方和与自由度,公式如下
6)计算校正后的应变量Y的处理组间平方和与自由度,公式如下
7)根据如下所示的协方差分析表,对校正后的应变量Y进行方差分析
8)误差项回归关系分析
9)对误差项系数进行F检验,公式如下
10)修正均数的计算,公式如下
11)在协方差分析中如果有多个处理组,并且得出的结论为各组间修正均数的差别有统计学意义时,应对修正均数继续做两两比较,常采用两两比较的t检验,公式如下
·end·
—如果喜欢,快分享给你的朋友们吧—
原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!
本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。
更多精彩
写在最后
转发本文至朋友圈,后台私信截图即可加入生信交流群,和小伙伴一起学习交流。
扫描下方二维码,关注我们,解锁更多精彩内容!
一个只分享干货的
生信公众号