抽样
-
概率抽样(随机抽样):可以推断总体。
遵循随机原则进行的抽样,总体中每一个单位都有一定的机会被选入样本。具有随机性,不能有带有主观性。概率抽样与等概率抽样是不同的概念。总体中每个单位被抽中的概率是已知或是可以计算出来的。
-
非概率抽样:不可推断总体。
————————————————————————————————————
描述性统计
统计分为描述性统计和推断性统计。
推断性统计包括参数估计和假设检验,通过样本量来估计和检验总体的参数,目的在于认知未知的总体参数及其分布特征。
描述性统计的数据类型
非结构数据:
文本、音频、图片、视频
————————————————————————————————————
描述性统计数据的度量
集中趋势的度量
离散程度的度量
数据分布形态的度量
数据集中趋势的度量
分类数据:众数
顺序数据:中位数和分位数
数值型数据:平均数
众数:一组数据中出现次数最多的变量值。主要用于测度分类数据的集中趋势,也适用于顺序数据和数值型数据集中趋势的测度值。在数据量较大的情况下,众数才有意义。
无众数、一个众数、多众数
中位数:一组数据数据排序后处于中间位置上的变量值。主要用于测度顺序数据的集中趋势,也适用于数值型数据,不适用分类数据。不受极端值的影响。
四分位数:一组数据排序后处于25%和75%位置上的变量值。不受极端值的影响。
下四分位:QLQ_{L}QL 位置=n4\frac{n}{4}4n
上四分位:QUQ_{U}QU 位置=3n4\frac{3n}{4}43n
平均数:一组数据相加后除以数据的个数得到的结果,为集中趋势的最主要测量值,主要适用于数值型数据,不适用于定类和定序数据。
总体均值:μ\muμ
样本均值:x~\tilde{x}x~
简单平均数:x~=x1+x2+...+xnn=∑i=1nxin\tilde{x} =\frac{x_{1} +x_{2}+...+x_{n} }{n} =\frac{\sum_{i=1}^nx_{i} }{n}x~=nx1+x2+...+xn=n∑i=1nxi
加权平均数(分组问题):x~=M1f1+M2f2+...+Mnfnf1+f2+...+fn=∑i=1nMifin\tilde{x} =\frac{M_{1} f_{1} +M_{2}f_{2} +...+M_{n}f_{n}}{f_{1} +f_{2} +...+f_{n} } =\frac{\sum_{i=1}^nM_{i} f_{i} }{n }x~=f