新手村:逻辑回归-理解01:目标变量、伯努利分布的概率概率、特征X之间的关系
好的!让我们用一个生活化的例子来解释逻辑回归中
目标变量
YYY、伯努利分布的概率
ppp 即 P(y=1∣x)P(y=1|x)P(y=1∣x)和输入特征
xxx 之间的关系。假设我们想预测某人是否会购买某款新手机。
1. 目标变量 YYY
- 定义:YYY是我们想要预测的二分类结果,取值为 0 或 1。
- Y=1Y = 1Y=1:表示“购买手机”(成功事件);
- Y=0Y = 0Y=0:表示“不购买”(失败事件)。
2. 伯努利分布的概率 ppp
- 定义:p=P(y=1∣x)p = P(y=1|x)p=P(y=1∣x) 是在给定特征 xxx 的条件下,y=1y=1y=1(购买手机)的概率。
- 例如,如果某人的特征(如年龄、收入、广告点击次数)表明他有 70% 的概率购买手机,那么 p=0.7p = 0.7p=0.7,1−p=0.31-p = 0.31−p=0.3 是不购买的概率。
- 伯努利分布:描述单次试验中成功或失败的概率分布。
在这里,yyy 的每一次观测(如每个人的购买行为)都服从参数为 ppp 的伯努利分布。
在逻辑回归中,我们假设目标变量 yyy 服从伯努利分布,即 y∈{ 0,1}y \in \{0,1\}y∈{ 0,1},而我们的任务是根据输入特征 XXX 预测 P(y=1∣X)P(y=1|X)P(y=1∣X)。
3. 输入特征 xxx
- 定义:xxx 是影响 yyy 的输入变量,例如:
- x1x_1x1:年龄(如 25 岁);
- x2x_2x2:月收入(如 10,000 元);
- x3x_3x3:是否看过广告(1=看过,0=没看过)。
4. 逻辑回归如何将 xxx 与 ppp 联系起来?
逻辑回归的核心思想是: