1.协方差
1.1 均值、标准差、方差
均值:Xˉ=E(X)=1n∑i=1nXi\bar{X} = E(X) = \frac{1}{n}\sum_{i=1}^{n}X_iXˉ=E(X)=n1∑i=1nXi
方差:s2=D(X)=1n−1∑i=1n(Xi−Xˉ)2s^2=D(X)=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2s2=D(X)=n−11∑i=1n(Xi−Xˉ)2
标准差:s=D(X)=1n−1∑i=1n(Xi−Xˉ)2s=\sqrt{D(X)}=\sqrt{ \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2}s=D(X)=n−11∑i=1n(Xi−Xˉ)2
均值描述样本集合的中间点,标准差描述样本集合的各个样本点到均值的距离之平均。
除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即“无偏估计”。
1.2 协方差
标准差和方差一般是用来描述一维数据的,协方差是用来度量两个随机变量关系的统计量。
协方差:cov(X,Y)=1n−1∑i=1n(X−Xiˉ)(Y−Yiˉ)cov(X,Y)=\frac{1}{n-1}\sum_{i=1}^{n}(X-\bar{X_i})(Y-\bar{Y_i})cov(X,Y)=n−11∑i=1n(X−Xiˉ)(Y−Yiˉ)
上式是求(X−Xiˉ)(Y−Yiˉ)(X-\bar{X_i})(Y-\bar{Y_i})(X−Xiˉ)(Y−Yiˉ)的均值,所以还可以写做:
cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)
协方差的性质:
- cov(X,X)=var(X)cov(X,X)=var(X)cov(X,X)=var(X)
- cov(X,Y)=cov(Y,X)cov(X,Y)=cov(Y,X)cov(X,Y)=cov(Y,X)
- cov(X,Y)=cov(Y,X)cov(X,Y)=cov(Y,X)cov(X,Y)=co