最优化理论-统计学2

1. 数据的分类

数据是统计学的基础,根据不同的特征和用途,可以从多个角度对数据进行分类。

1.1 按计量尺度分类
分类数据(Categorical Data)
  • 定义:用于表示类别或分组的数据,不能进行数学运算。
  • 特点:仅用于区分不同的类别,数值本身没有大小意义。
  • 示例
    • 性别:男性、女性。
    • 血型:A型、B型、AB型、O型。
    • 颜色:红色、蓝色、绿色。
数值数据(Numerical Data)
  • 定义:表示数量或度量的数据,可以进行数学运算。
  • 特点:数值之间有实际的大小和顺序关系。
  • 分类
    • 离散数据(Discrete Data):只能取有限个数值,通常是整数。
      • 示例:家庭中的子女数量(0、1、2、…)。
    • 连续数据(Continuous Data):可以取任意数值,包括小数。
      • 示例:人的身高(170.5厘米)、体重(65.8公斤)。
1.2 按收集方法分类
观测数据(Observational Data)
  • 定义:在自然环境下,无干预地通过观察收集的数据。
  • 特点:研究者不影响数据的产生过程。
  • 示例
    • 记录野生动物的行为习性。
    • 社会调查中的问卷数据。
实验数据(Experimental Data)
  • 定义:通过控制实验条件,主动干预变量后收集的数据。
  • 特点:研究者操纵一个或多个变量,观察其对结果的影响。
  • 示例
    • 药物试验中,给实验组服用新药,控制组服用安慰剂。
    • 实验室中测试不同温度对化学反应速率的影响。
1.3 按时间状态分类
截面数据(Cross-sectional Data)
  • 定义:在同一时间点或时间段内,从不同个体或对象收集的数据。
  • 特点:反映特定时刻的状态,不涉及时间变化。
  • 示例
    • 2023年全国各地区的人均收入数据。
    • 某次考试中全班学生的成绩。
时间序列数据(Time Series Data)
  • 定义:在连续的时间点上,对同一对象收集的数据。
  • 特点:反映变量随时间的变化趋势。
  • 示例
    • 某公司过去5年的年度销售额。
    • 一天内每小时的温度变化记录。

2. 变量的分类

变量是研究对象的特征,根据其性质和取值方式,可分为定量变量和定性变量。

2.1 定量变量(Quantitative Variables)

用于表示数量,可以进行数学运算。

离散变量(Discrete Variables)
  • 定义:只能取有限个或可数的数值,通常是整数。
  • 特点:数值之间有明确的间隔,无法取中间值。
  • 示例
    • 家庭成员数量:2人、3人、4人。
    • 学生考试通过科目数:0科、1科、2科。
连续变量(Continuous Variables)
  • 定义:可以在一个范围内取任意数值,包括小数。
  • 特点:数值之间没有最小单位,可以无限逼近。
  • 示例
    • 身高:165.5厘米、170.2厘米。
    • 体温:36.6℃、37.2℃。
2.2 定性变量(Qualitative Variables)

用于描述属性或类别,不能进行数学运算。

名义变量(Nominal Variables,无序变量)
  • 定义:类别之间没有内在顺序。
  • 特点:仅用于区分不同类别,无大小或顺序之分。
  • 示例
    • 血型:A型、B型、AB型、O型。
    • 城市名称:北京、上海、广州。
有序变量(Ordinal Variables)
  • 定义:类别之间有明确的顺序,但差异无法量化。
  • 特点:可以比较大小或等级,但无法确定具体差距。
  • 示例
    • 教育程度:小学、初中、高中、本科、硕士、博士。
    • 顾客满意度:非常不满意、不满意、一般、满意、非常满意。
2.3 变量与数据的关系
  • 定量变量生成数值数据:用于表示数量,可进行数学运算。
    • 示例:测量学生的身高(变量)得到的数据是数值数据。
  • 定性变量生成分类数据:用于表示类别,不能进行数学运算。
    • 示例:记录员工的职位(变量)得到的数据是分类数据。

3. 样本与总体

3.1 总体与样本的概念
总体(Population)
  • 定义:研究对象的全体,是我们感兴趣的所有个体或数据的集合。
  • 示例
    • 全国所有成年人的收入水平。
    • 某种产品的全部生产批次。
样本(Sample)
  • 定义:从总体中抽取的一部分个体或数据,用于推断总体特征。
  • 示例
    • 从全国成年人中随机抽取1000人调查收入。
    • 从生产线上随机抽取50件产品进行质量检测。
3.2 样本量与其重要性
样本量(Sample Size)
  • 定义:样本中包含的个体数量,通常用 ( n ) 表示。
  • 重要性
    • 代表性:较大的样本量通常能更好地代表总体。
    • 精确性:样本量增大,估计结果的精确性提高。
  • 示例
    • 在一次民意调查中,样本量为2000人,比只调查200人得到的结果更可靠。
3.3 随机样本
定义
  • 随机样本(Random Sample):从总体中按照一定的随机机制抽取的样本,每个个体都有已知的、非零的被选中概率。
特点
  • 已知的选择概率:每个个体被选中的概率是已知的,便于统计推断。
  • 不要求机会均等:个体被选中的概率可以不相等。
  • </
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值