台大机器学习基石 Lecture 4 - Feasibility of Learning

本文探讨了有限假设集合中机器学习的可行性问题，包括No Free Lunch定理的意义、Hoeffding不等式的应用以及如何通过概率确保学习算法的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这次Lecture主要讨论的是有限假设下的机器学习可行性。我们为什么能通过算法选出的 $h\in H$ 定作 $g$ ，而 $g$ 又为什么一定与 $f$ 相接近呢？

Learning is Impossible?

这一部分主要讨论了这么一个问题：能够在数据集 $D$ 上满足 $g(x_n) = y_n$ 的 $g\in H$ 是否一定能有 $g\approx f$ ？

上图就说明了，在 $D$ 以外的数据中更接近目标函数是不确定的，而我们希望机器学习能做到所选模型能在数据集之外也有与真实结果一致的预测结果，而不是仅限于数据集中。

这就是机器学习的No Free Lunch（NFL）定理，表明了没有一个机器学习算法能在任何问题上都取得完美的结果，在未知数据集无限大的情况下，也一定存在另一个算法B能够在特定数据集上有更好的表现。

这就告诉我们，在机器学习中要具体问题具体分析，所说的一个学习算法比另一个算法效果更好，只是针对特定的问题，特定的先验信息，数据的分布，训练样本的数目等等。

Probability to the Rescue

接下来的问题是，在以上的背景下机器学习还能取得我们想要的结果吗？

那我们不妨先来看看我们是怎么对其他未知的东西进行推论的？

在一个装有很多球的罐子里，有橙色和绿色两种颜色的球，我们是怎么知道橙色球占多少的呢？统计学上的方法是抽样一部分，获得样本中的橙色球占比 $\nu$ ，从而推论出整个罐子中的分布情况。

但是是否样本内的比例 $\nu$ 是否能保证罐中的比例也是 $\nu$ 呢？答案是否定的，但是从概率来看，有较大概率能确定 $\nu$ 和 $\mu$ 是接近的，从数学上就用Hoeffding's Inequality来说明这一点：

$\mathbb{P}\left [ \left | \nu - \mu \right | > \varepsilon \right ] \leq 2 exp(-2\varepsilon^2N)$

不等式说明，在N很大的时候就能推断 $\nu$ 和 $\mu$ 是很相近的，而 $\nu = \mu$ 时就被称为probably approximately correct(PAC)。

从而，在不知道 $\mu$ 的情况下，我们就能通过大样本N下用 $\nu$ 来估计 $\mu$ 。

Connection to Learning

现在我们知道了在“罐子”问题中如何知道橙色球的分布 $\mu$ ，那在机器学习问题中又如何解决呢？

每个数据被视作一个球，映射中最关键的点是将抽样中橙球的概率理解为样本数据集D上h(x)错误的概率，以此推算出在所有数据上h(x)错误的概率，那我们通过什么来进行推论呢？就是Hoeffding's Inequality能证明两者是在大样本下PAC的。

从而引入两个值——

$E_{in} (h)$ 表示在已知样本中 $h(x)\neq f(x)$ 的概率，也就是在训练集上犯错概率；
$E_{out}(h)$ 表示在所有数据中 $h(x)\neq f(x)$ 的概率，也就是在整个输入空间中犯错的概率。

这是两个概率的数学定义。

从而Hoeffding不等式可以改写为——

这就表示 $E_{in} (h)=E_{out}(h)$ 也是PAC的。那在 $E_{in} (h)\approx E_{out}(h)$ 下，如果 $E_{in} (h)$ 比较小，也就能推断 $E_{out}(h)$ 也比较小，从而在该数据分布下h与f比较接近，机器学习的模型也就比较准确。

但是，h只是H中的一个特定hypothesis，学习算法会在H中选择一个h来作为g，而不是强制固定的某一个h。如果是确定某一个hypothesis的话，只能是“确认”而不是在“学习”。强制选出的某一个h很有可能在其他数据上 $E_{in} (h)$ 会比较大，同时 $E_{out}(h)$ 也会比较大，这就不满足对机器学习的要求。

Connection to Real Learning

现在有M个罐子（M个hypothesis），其中某个罐子抽样全部都是绿色（全部满足 $h(x)= f(x)$ ），这种情况下我们能不能选这个罐子呢？或者说这个hypothesis是不是我们想要的g？

我们先看一个简单问题：150枚硬币，每个硬币投掷5次，其中至少有一枚硬币5次都是正面的概率有多大？这个事件是非常幸运的吗？结果是 $1-(\frac{31}{32})^{150} > 99\%$ ，这表示出现这个事件的概率是很大的，同时也说明本来是 $\frac{1}{32}$ 的概率会因为多次尝试而被放大发生概率。