总体和样本

一: 基本点估值

①均值
X¯¯¯ 表示样本的均值
μ^ 表示总体的均值的点估计量
当认为可以使用样本均值代替总体均值的点估计量时
μ^ = X¯¯¯

②方差
σ^² 表示总体方差的点估计量

σ^² = (Σ(x- x¯ )²) / (n-1)

σ^² 通常也叫作s²

③成功率/成功比例

糖果公司发现,在一次样本调查中,有40个人,其中32个人选择更喜欢他们的口香糖,而剩下的8个人则更喜欢竞争对手的口香糖

那么根据这个样本符合什么分布呢,有n,p。
如果说X表示总体的喜欢口香糖的人的数量的话,那么X ~ B(n,p)
P^ = Ps 使用样本的成功比例估计总体的成功比例
Ps = 成功数目/样本数据,这个既可以称之为成功的比例,也可以称之为成功的概率

二 已知总体的均值,求样本成功率为特定值时的概率

案例:糖果公司按盒售卖糖果,每盒糖果中有100颗糖果,已知总体里有25%都是红色糖果,求每盒糖果中有40%红色糖果的概率

①查看与样本相当的其他样本,在这里样本就是每盒糖果,样本的大小为n,n=100

②查看样本成功比率的分布 P^ ,,其中X为每盒汤锅中红色糖果的数量,计算其均值和方差
step1
E( P^ ) = E(X/n) = E(X)/n
Var( P^ ) = Var(X/n) = Var(X)/n²

step2
把每盒糖果当做一道题,把红色糖果的数目当做可能的答案,那么这个分布是一个二项分布,X ~ B(n,p)
所以E(X) = np E( P^ ) = p
Var(X) = npq Var( P^ ) = pq/n

当n特别大的时候(n>30) P^ = Ps 服从正太分布
Ps = N(p,pq/n)
step3
做连续性修正: + 1/2n

③得出上述分布后,代入特定值求出特定值的概率
根据 40%这个特定值求出标准分,在概率表找出对应的概率

根据总体的统计,把总体拆分成小包装后,每个小包装的均值为10,方差为1,一位顾客买了30袋,结果发现每袋糖球中的糖球平均数目只有8.5

①查看与样本相当的其他样本,在这里样本就是这30袋糖球

②查看样本的均值的分布 X¯¯¯ ,,其中X为每袋糖球中糖球的数目,计算其均值和方差

E( X¯¯¯ ) = (E( X1 ) + E( X2 ) + … E( Xn )) / n = nE(X)/n = E(X) = μ

Var( X¯¯¯ ) = (Var( X1 ) + Var( X2 ) + … Var( Xn )) / n = nVar(X)/n² = Var(X)/n = σ² /n

X ~ N(μ, σ² )则 X¯¯¯ ~ N(μ, σ² /n)

根据中心极限定理,如果X不一定是正态分布,从非正态总体中取出的样本很大,则 X¯¯¯ 服从正态分布,样本数量>30,如果总体的均值和方差为μ和 σ² ,那么

X¯¯¯ ~ N(μ, σ² /n)

二项分布和泊松分布都是依据这个原理转化为正态分布的

### 总体主成分与样本主成分的概念及其区别 #### 定义与概念 总体主成分是指基于整个群体的真实协方差矩阵计算得出的理想化主成分。这些主成分反映了数据集中所有个体之间的内在结构关系,理论上能够捕捉到最本质的变化模式。 而样本主成分则是通过有限数量观测值所构成的样本集来估计出来的近似解。由于现实中很难获得完整的总体信息,因此通常只能依赖于样本来推断整体特性[^4]。 #### 计算方式的不同 当考虑总体时,假设已知确切的概率密度函数以及对应的期望向量μ协方差矩阵Σ,则可以直接利用它们来进行精确计算;但在实践中往往无法获取这样的先验知识,转而采用从具体观察对象中抽取的一部分——即样本——作为替代品去估算未知参数。此时会构建样本均值$\bar{x}$及样本协方差S,并以此为基础求得相应的特征向量v_i (i=1,...,p),进而形成一组新的坐标轴方向,这就是所谓的“样本主成分”。 ```python import numpy as np def calculate_sample_pca(data_matrix): mean_vector = np.mean(data_matrix, axis=0) centered_data = data_matrix - mean_vector covariance_matrix = np.cov(centered_data.T) eigenvalues, eigenvectors = np.linalg.eig(covariance_matrix) sorted_indices = np.argsort(eigenvalues)[::-1] principal_components = eigenvectors[:,sorted_indices] return principal_components, eigenvalues[sorted_indices], mean_vector ``` #### 应用场景差异 - **理论研究**:如果目的是为了理解某种现象背后的机制或是验证某些假说,在理想条件下讨论总体主成分是有意义的; - **实际应用**:然而在大多数情况下,尤其是涉及到预测、分类等问题时,更多关注的是如何有效地利用现有资料做出合理决策,这时就需要依靠样本主成分分析方法了[^5]. #### 结果解释上的考量 值得注意的是,尽管两者都旨在揭示原始变量间的主要变异趋势,但由于前者建立在一个更为抽象层面之上,后者则更贴近现实情况下的不确定性因素影响,所以在解读结论时也应有所区分对待。例如,在评估模型性能指标方面可能会存在细微差别[^2].
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值