前言:学习记录,欢迎指正,讨论
一维:均值,标准差,方差(一个变量)
均值: 描绘样本集合的中间点
标准差: 描述样本集合的各个样本点到均值的距离平均,即“散布度”
方差: 之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。
二维:协方差(两个变量)
均值,标准差,方差只能用来描述一个变量。需要描述两个变量之间的关系时就要引入协方差。
协方差是用来度量两个随机变量关系的统计量,仿照方差的定义:
协方差可以这样定义:
协方差结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义)。如果结果为负值, 就说明两者是负相关。如果为0,则两者之间没有关系,就是统计上说的“相互独立”。
从定义可以看出
1.cov(X,X)=var(X);
2.cov(X,Y) = cov(Y,X);
多维:协方差矩阵(多个变量)
如果有三个维度,则协方差矩阵为:
则协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。
计算协方差矩阵首先要搞清楚样本和维度(变量),然后计算每个维度的均值
如班级成绩统计表
语文(X) | 数学(Y) | 英语(Z) | 音乐(K) | |
小明 | 89 | 79 | 93 | 84 |
小红 | 80 | 82 | 93 | 95 |
小丽 | 73 | 75 | 94 | 82 |
三个样本(小明,小红,小丽)4个维度(语文,数学,英语,音乐)
则该协方差矩阵是四行四列的矩阵。
理解协方差矩阵的关键在于它的计算不同维度之间的协方差