1. 数据的分类
数据是统计学的基础,根据不同的特征和用途,可以从多个角度对数据进行分类。
1.1 按计量尺度分类
分类数据(Categorical Data)
- 定义:用于表示类别或分组的数据,不能进行数学运算。
- 特点:仅用于区分不同的类别,数值本身没有大小意义。
- 示例:
- 性别:男性、女性。
- 血型:A型、B型、AB型、O型。
- 颜色:红色、蓝色、绿色。
数值数据(Numerical Data)
- 定义:表示数量或度量的数据,可以进行数学运算。
- 特点:数值之间有实际的大小和顺序关系。
- 分类:
- 离散数据(Discrete Data):只能取有限个数值,通常是整数。
- 示例:家庭中的子女数量(0、1、2、…)。
- 连续数据(Continuous Data):可以取任意数值,包括小数。
- 示例:人的身高(170.5厘米)、体重(65.8公斤)。
- 离散数据(Discrete Data):只能取有限个数值,通常是整数。
1.2 按收集方法分类
观测数据(Observational Data)
- 定义:在自然环境下,无干预地通过观察收集的数据。
- 特点:研究者不影响数据的产生过程。
- 示例:
- 记录野生动物的行为习性。
- 社会调查中的问卷数据。
实验数据(Experimental Data)
- 定义:通过控制实验条件,主动干预变量后收集的数据。
- 特点:研究者操纵一个或多个变量,观察其对结果的影响。
- 示例:
- 药物试验中,给实验组服用新药,控制组服用安慰剂。
- 实验室中测试不同温度对化学反应速率的影响。
1.3 按时间状态分类
截面数据(Cross-sectional Data)
- 定义:在同一时间点或时间段内,从不同个体或对象收集的数据。
- 特点:反映特定时刻的状态,不涉及时间变化。
- 示例:
- 2023年全国各地区的人均收入数据。
- 某次考试中全班学生的成绩。
时间序列数据(Time Series Data)
- 定义:在连续的时间点上,对同一对象收集的数据。
- 特点:反映变量随时间的变化趋势。
- 示例:
- 某公司过去5年的年度销售额。
- 一天内每小时的温度变化记录。
2. 变量的分类
变量是研究对象的特征,根据其性质和取值方式,可分为定量变量和定性变量。
2.1 定量变量(Quantitative Variables)
用于表示数量,可以进行数学运算。
离散变量(Discrete Variables)
- 定义:只能取有限个或可数的数值,通常是整数。
- 特点:数值之间有明确的间隔,无法取中间值。
- 示例:
- 家庭成员数量:2人、3人、4人。
- 学生考试通过科目数:0科、1科、2科。
连续变量(Continuous Variables)
- 定义:可以在一个范围内取任意数值,包括小数。
- 特点:数值之间没有最小单位,可以无限逼近。
- 示例:
- 身高:165.5厘米、170.2厘米。
- 体温:36.6℃、37.2℃。
2.2 定性变量(Qualitative Variables)
用于描述属性或类别,不能进行数学运算。
名义变量(Nominal Variables,无序变量)
- 定义:类别之间没有内在顺序。
- 特点:仅用于区分不同类别,无大小或顺序之分。
- 示例:
- 血型:A型、B型、AB型、O型。
- 城市名称:北京、上海、广州。
有序变量(Ordinal Variables)
- 定义:类别之间有明确的顺序,但差异无法量化。
- 特点:可以比较大小或等级,但无法确定具体差距。
- 示例:
- 教育程度:小学、初中、高中、本科、硕士、博士。
- 顾客满意度:非常不满意、不满意、一般、满意、非常满意。
2.3 变量与数据的关系
- 定量变量生成数值数据:用于表示数量,可进行数学运算。
- 示例:测量学生的身高(变量)得到的数据是数值数据。
- 定性变量生成分类数据:用于表示类别,不能进行数学运算。
- 示例:记录员工的职位(变量)得到的数据是分类数据。
3. 样本与总体
3.1 总体与样本的概念
总体(Population)
- 定义:研究对象的全体,是我们感兴趣的所有个体或数据的集合。
- 示例:
- 全国所有成年人的收入水平。
- 某种产品的全部生产批次。
样本(Sample)
- 定义:从总体中抽取的一部分个体或数据,用于推断总体特征。
- 示例:
- 从全国成年人中随机抽取1000人调查收入。
- 从生产线上随机抽取50件产品进行质量检测。
3.2 样本量与其重要性
样本量(Sample Size)
- 定义:样本中包含的个体数量,通常用 ( n ) 表示。
- 重要性:
- 代表性:较大的样本量通常能更好地代表总体。
- 精确性:样本量增大,估计结果的精确性提高。
- 示例:
- 在一次民意调查中,样本量为2000人,比只调查200人得到的结果更可靠。
3.3 随机样本
定义
- 随机样本(Random Sample):从总体中按照一定的随机机制抽取的样本,每个个体都有已知的、非零的被选中概率。
特点
- 已知的选择概率:每个个体被选中的概率是已知的,便于统计推断。
- 不要求机会均等:个体被选中的概率可以不相等。 </