最优化理论-统计学2

aketoshknight

于 2024-10-22 12:29:00 发布

阅读量938

点赞数 20

CC 4.0 BY-SA版权

分类专栏：人工智能学习笔记文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aketoshknight/article/details/143149521

1. 数据的分类

数据是统计学的基础，根据不同的特征和用途，可以从多个角度对数据进行分类。

1.1 按计量尺度分类

分类数据（Categorical Data）

定义：用于表示类别或分组的数据，不能进行数学运算。
特点：仅用于区分不同的类别，数值本身没有大小意义。
示例：
- 性别：男性、女性。
- 血型：A型、B型、AB型、O型。
- 颜色：红色、蓝色、绿色。

数值数据（Numerical Data）

定义：表示数量或度量的数据，可以进行数学运算。
特点：数值之间有实际的大小和顺序关系。
分类：
- 离散数据（Discrete Data）：只能取有限个数值，通常是整数。
  - 示例：家庭中的子女数量（0、1、2、…）。
- 连续数据（Continuous Data）：可以取任意数值，包括小数。
  - 示例：人的身高（170.5厘米）、体重（65.8公斤）。

1.2 按收集方法分类

观测数据（Observational Data）

定义：在自然环境下，无干预地通过观察收集的数据。
特点：研究者不影响数据的产生过程。
示例：
- 记录野生动物的行为习性。
- 社会调查中的问卷数据。

实验数据（Experimental Data）

定义：通过控制实验条件，主动干预变量后收集的数据。
特点：研究者操纵一个或多个变量，观察其对结果的影响。
示例：
- 药物试验中，给实验组服用新药，控制组服用安慰剂。
- 实验室中测试不同温度对化学反应速率的影响。

1.3 按时间状态分类

截面数据（Cross-sectional Data）

定义：在同一时间点或时间段内，从不同个体或对象收集的数据。
特点：反映特定时刻的状态，不涉及时间变化。
示例：
- 2023年全国各地区的人均收入数据。
- 某次考试中全班学生的成绩。

时间序列数据（Time Series Data）

定义：在连续的时间点上，对同一对象收集的数据。
特点：反映变量随时间的变化趋势。
示例：
- 某公司过去5年的年度销售额。
- 一天内每小时的温度变化记录。

2. 变量的分类

变量是研究对象的特征，根据其性质和取值方式，可分为定量变量和定性变量。

2.1 定量变量（Quantitative Variables）

用于表示数量，可以进行数学运算。

离散变量（Discrete Variables）

定义：只能取有限个或可数的数值，通常是整数。
特点：数值之间有明确的间隔，无法取中间值。
示例：
- 家庭成员数量：2人、3人、4人。
- 学生考试通过科目数：0科、1科、2科。

连续变量（Continuous Variables）

定义：可以在一个范围内取任意数值，包括小数。
特点：数值之间没有最小单位，可以无限逼近。
示例：
- 身高：165.5厘米、170.2厘米。
- 体温：36.6℃、37.2℃。

2.2 定性变量（Qualitative Variables）

用于描述属性或类别，不能进行数学运算。

名义变量（Nominal Variables，无序变量）

定义：类别之间没有内在顺序。
特点：仅用于区分不同类别，无大小或顺序之分。
示例：
- 血型：A型、B型、AB型、O型。
- 城市名称：北京、上海、广州。

有序变量（Ordinal Variables）

定义：类别之间有明确的顺序，但差异无法量化。
特点：可以比较大小或等级，但无法确定具体差距。
示例：
- 教育程度：小学、初中、高中、本科、硕士、博士。
- 顾客满意度：非常不满意、不满意、一般、满意、非常满意。

2.3 变量与数据的关系

定量变量生成数值数据：用于表示数量，可进行数学运算。
- 示例：测量学生的身高（变量）得到的数据是数值数据。
定性变量生成分类数据：用于表示类别，不能进行数学运算。
- 示例：记录员工的职位（变量）得到的数据是分类数据。

3. 样本与总体

3.1 总体与样本的概念

总体（Population）

定义：研究对象的全体，是我们感兴趣的所有个体或数据的集合。
示例：
- 全国所有成年人的收入水平。
- 某种产品的全部生产批次。

样本（Sample）

定义：从总体中抽取的一部分个体或数据，用于推断总体特征。
示例：
- 从全国成年人中随机抽取1000人调查收入。
- 从生产线上随机抽取50件产品进行质量检测。

3.2 样本量与其重要性

样本量（Sample Size）

定义：样本中包含的个体数量，通常用 ( n ) 表示。
重要性：
- 代表性：较大的样本量通常能更好地代表总体。
- 精确性：样本量增大，估计结果的精确性提高。
示例：
- 在一次民意调查中，样本量为2000人，比只调查200人得到的结果更可靠。

3.3 随机样本

定义

随机样本（Random Sample）：从总体中按照一定的随机机制抽取的样本，每个个体都有已知的、非零的被选中概率。

特点

已知的选择概率：每个个体被选中的概率是已知的，便于统计推断。
不要求机会均等：个体被选中的概率可以不相等。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。