序言
深度学习作为人工智能领域的重要分支,其核心在于表示学习( Representation Learning \text{Representation Learning} Representation Learning),尤其是分布式表示( Distributed Representation \text{Distributed Representation} Distributed Representation)。这一领域的兴起,源于对人类大脑处理信息方式的深刻洞察与模仿。表示学习旨在通过模型参数,以有效的方式表示观测样本,从而简化问题处理的难度。而分布式表示,则进一步强调了数据特征的分散与协作,使得深度学习模型能够更加灵活地捕捉和表达复杂数据的内在结构。
分布式表示
-
分布式表示的概念——由很多元素组合的表示,这些元素之间可以设置成可分离的——是表示学习最重要的工具之一。
- 分布式表示非常强大,因为他们能用具有 k k k个值的 n n n 个特征去描述 k n k^n kn 个不同的概念。
- 正如我们看到的,具有多个隐藏单元的神经网络和具有多个潜变量的概率模型都利用了分布式表示的策略。
- 我们现在再介绍一个观察结果。
- 许多深度学习算法基于的假设是,隐藏单元能够学习表示出解释数据的潜在因果因子,就像
深度学习之表示学习 - 半监督解释因果关系篇
中讨论的一样。 - 这种方法在分布式表示上是自然的,因为表示空间中的每个方向都对应着一个不同的潜在配置变量的值。
-
n n n 维二元向量是一个分布式表示的示例,有 2 n 2^n 2n 种配置,每一种都对应输入空间中的一个不同区域,如
图例1
所示。- 这可以与符号表示相比较,其中输入关联到单一符号或类别。
- 如果字典中有 n n n 个符号,那么可以想象有 n n n 个特征监测器,每个特征探测器监测相关类别的存在。
- 在这种情况下,只有表示空间中 n n n 个不同配置才有可能在输入空间中刻画 n n n 个不同的区域,如
图例2
所示。 - 这样的符号表示也被称为 one-hot \text{one-hot} one-hot表示,因为它可以表示成各位排斥的 n n n 维二元向量(其中只有一位是激活的)。
- 符号表示是更广泛的非分布式表示类中的一个具体示例,可以包含很多条目,但是每个条目没有显著意义的单独控制作用。
-
以下是基于非分布式表示的学习算法的示例:
- 聚类算法,包含 k k k-均值算法:每个输入点恰好分配到一个类别。
- k k k-最近邻算法:给定一个输入,一个或几个模板或原型样本与之关联。在 k > 1 k > 1 k>1的情况下,每个输入都使用多个值来描述,但是它们不能彼此分开控制,因此这不能算真正的分布式表示。
- 决策树:给定输入时,只有一个叶节点(和从根到该叶节点路径上的点)是被激活的。
- 高斯混合体和专家混合体:模板(聚类中心)或专家关联一个激活的程度。和 k k k-最近邻算法一样,每个输入用多个值表示,但是这些值不能轻易地彼此分开控制。
- 具有高斯核 (或其他类似的局部核)的核机器:尽管每个 “支持向量’’ 或模板
样本的激活程度是连续值,但仍然会出现和高斯混合体相同的问题。 - 基于 n − gram n-\text{gram} n−gram的语言或翻译模型:根据后缀的树结构划分上下文集合(符号序列)。例如,一个叶节点可能对应于最后两个单词 w 1 w_1 w1 和 w 2 w_2 w2。树上的每个叶节点分别估计单独的参数(有些共享也是可能的)。
-
对于这些非分布式算法中的部分而言,有些输出并非是恒定的,而是在相邻区域之间内插。参数(或样本)的数量和它们能够定义区域的数量之间保持线性关系。
-
将分布式表示和符号表示区分开来的一个重要概念是,由不同概念之间的共享属性而产生的泛化。
- 作为纯符号, ‘‘猫’’ 和 ‘‘狗’’ 之间的距离和任意其他两种符号的距离一样。
- 然而,如果将它们与有意义的分布式表示相关联,那么关于猫的很多特点可以推广到狗,反之亦然。
- 例如,我们的分布式表示可能会包含诸如 ‘‘具有皮毛’’或 ‘‘腿的数目’’ 这类在 ‘‘猫’’ 和 ‘‘狗’’ 的嵌入上具有相同值的项。
- 正如
深度学习应用 - 自然语言处理(NLP)篇 - 神经语言模型
所讨论的,作用于单词分布式表示的神经语言模型比其他直接对单词 one-hot \text{one-hot} one-hot表示进行操作的模型泛化得更好。 - 分布式表示具有丰富的相似性空间,语义上相近的概念(或输入)在距离上接近,这是纯粹的符号表示所缺少的特点。
-
在学习算法中使用分布式表示何时以及为什么具有统计优势?
- 当一个明显复杂的结构可以用较少参数紧致地表示时,分布式表示具有统计上的优点。
- 一些传统的非分布式学习算法仅仅在平滑假设的情况下能够泛化,也就是说如果 u ≈ v u \approx v u≈v,那么学习到的目标函数 f f f 通常具有 f ( u ) ≈ f ( v ) f(u) \approx f(v) f(u)≈