论文阅读笔记----《Observed versus latent features for knowledge base and text inference》

本文对比了观察特征模型与潜在特征模型在知识库完成任务上的表现,特别是在FB15K和WN18数据集上。研究发现,简单的观察特征模型在捕获实体间关系方面优于潜在特征模型,尤其是在存在冗余关系的情况下。同时,当结合网络规模文本提及时,观察特征模型的性能提升,而潜在特征模型在更具挑战性的数据集上表现出色。实验还表明,结合两种模型的组合可以充分利用各自的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract

在本文中,我们在两个基准知识库完成数据集FB15K和WN18上与潜在特征模型相比,展示了一个简单的观察特征模型令人惊讶的有效性。我们还比较了从FB15K衍生的更具挑战性的数据集上的潜在和观察特征模型,此外还结合了来自网络规模语料库的文本提及。我们表明,观察特征模型在捕获具有文本关系的实体对的信息方面最为有效,两者的结合结合结合了这两种模型类型的优点。

1 Introduction

在结构化知识库 (KBs) 中表示有关现实世界实体及其关系的信息可以实现许多应用程序。大型、协作创建的知识库最近变得可用(一些例子是 Freebase (Bollacker et al., 2008)、Y AGO (Suchanek et al., 2008) al., 2007) 和 DBPedia (Auer et al., 2007)),但尽管它们非常大,但它们的覆盖范围远未完成。这激发了自动推导新事实以扩展手动构建的知识库的研究,通过使用来自现有知识库的信息和来自文档中实体的文本提及的信息。

许多用于预测知识库中新链接的统计模型已应用于此任务,其中最成功的模型是学习实体和关系的连续表示的潜在特征模型(Bordes 等人,2011;Nickel 等人,2011;Bordes 等人) al., 2013),以及基于知识图中的可观察特征进行预测的观察特征模型 (Lao et al., 2011; Riedel et al., 2013)。此外,研究还研究了基于文本的提取对知识库完成的贡献(Lao 等人,2012;Gardner 等人,2013)。

在本文中,我们根据经验将一个非常简单的观察特征模型与最近应用于两个常用数据集以完成知识库的最先进的潜在特征模型进行比较:一个改编自 Freebase KB 的数据集,称为 FB15K (Bordes et al. , 2013) 和从 WordNet 图 WN18 派生的数据集,也在 (Bordes et al., 2013) 中引入。我们表明,简单的观察到的特征模型大大优于潜在特征模型,这可能是由于这些数据集的 KB 图中可能存在不切实际的冗余。然而,有趣的是,所研究的潜在特征模型也无法学习目标概念,即使给出了大量的潜在特征。

我们还构建了一个从 FB15K 派生的更难、可能更真实的数据集,其中我们删除了近乎重复或反向重复的关系。我们表明,在这个新数据集中,我们研究的潜在特征模型大大优于观察到的特征模型。当我们使用来自 ClueWeb 12 网络规模文档集合的文本提及来扩充新构建的数据集时,我们看到观察到的特征模型比潜在特征模型更强大,而且两者的组合优于任何一个他们。

2 Related Work

关于知识库完成的统计模型已经有大量的工作。镍等。 (2015)提供了最近的概述。

与我们当前关注的最相关的是最近将潜在特征模型应用于 FB15K 和 WN18 数据集的工作(Bor​​des 等人,2013;Wang 等人,2014;Yang 等人,2015),该工作包含观察特征和潜在特征之间的比较模型(Dong 等人,2014;Nickel 等人,2014),并使用来自文本和知识库关系的推理进行工作(Lao 等人,2012;Riedel 等人,2013;Dong 等人,2014;加德纳等人,2014)。

我们的工作与之前的工作不同,我们将一种非常简单的观察特征模型(仅使用候选实体对之间的直接链接)与两个基准数据集上的最先进的潜在特征模型进行比较,结果令人惊讶.

我们在知识库推断中使用文本提及的工作不同于之前的工作,在知识库的规模和丰富度以及所使用的文本关系方面,以及我们评估文本的影响不仅对提到的实体对,如 (Gardner et al ., 2014; Riedel et al., 2013) 但在所有链接上。我们在单个知识图中表示知识库和文本模式,如Lao 等人。 (2012) 和 Riedel 等人。 (2013),但改进了学习方法以在损失函数中以不同的方式处理文本关系,以最大限度地提高对知识库关系的预测性能。我们展示了观察到的和潜在的特征模型以及它们在有和没有文本关系的知识图中的组合的影响。

3 Models for knowledge base completion

我们首先引入符号来定义任务,主要遵循 Nickel 等人的术语。 (2015 年)。我们假设知识库使用 RDF 三元组表示,形式为(主语、谓语、宾语),其中主语和宾语是实体,谓词是关系类型。例如,图 1 所示的 KB 片段显示为知识图,其中实体是节点,关系显示为有向标记边:我们看到三个实体参与由边指示的三个关系实例。

 我们感兴趣的任务是,给定一个由实体组成的训练知识库,其中实体之间有一些关系,预测训练知识库中没有出现的新关系(链接)。例如,可以通过训练KB三元组(巴拉克·奥巴马,出生地,檀香山)和(檀香山,美国城市)预测三元组。更具体地说,我们将构建模型,对给定查询的候选实体进行排序(e1,r,?)或(?,r,e2),询问给定关系的主语或宾语。

以下符号将帮助我们定义我们所考虑的知识图上的统计模型。让E=(e1,e2,…,eNe)表示知识图中的实体集,让R=(r1,r2,…,rNr)表示关系类型集。我们将每个可能的三元组表示为xi,j,k=(ei,rk,ej),并用二元随机变量yi,j,k对其存在性进行建模∈ {0,1},表示三元组是否存在。我们将重点关注使用知识图中的观察特征或三元组中三个元素的潜在特征对可能的三元组xi、j、k进行评分的模型。两个模型类都使用评分函数f(xi,j,k;Θ),表示模型对三元组存在的置信度。我们首先指定了我们在本研究中考虑的评分函数的形式,然后详细介绍了用于训练模型参数的损失函数。在本研究中,我们使用相同的损失函数(作为三重分数的函数)来训练所有模型。

3.1 Observed feature models

我们考虑了一种非常简单的观察特征模型,可以将其视为知识库完成的路径排序(PRA)的贫乏变体(Lao和Cohen,2010;Lao等人,2011)。特别是,我们为候选三元组(ei、rk、ej)定义了长度为1的现有路径的特征。这些路径可以是从ei到ej或从ej到ei的路径。长度1从ei到ej的路径:我们定义了形式1(r0和rk)的二元特征,当三元ei、r0、ej存在于训练知识图中,并且r0 6=rk时激发。该特征类型捕捉同一实体对的多个关系类型之间的相关性——例如,如果有人住在某个城市,他们可能在同一个城市工作。从ej到ei的长度为1的路径:我们定义了形式1的二元指示符特征(r0inv和rk),当训练知识图中存在三重ej、r0、ei时激发。在这里,r0可以捕捉与反向关系的相关性,例如国籍和国籍的人。

仅当候选实体对 (ei, ej) 已经在训练知识图中直接连接(通过任一方向的链接)时,此类功能才会触发。因此,只有当存在多个倾向于连接相似实体对集合的相关关系类型时,这些特征才会有帮助。在实验部分,我们将证明我们研究的两个常用的 KB 完成数据集确实是这种情况。对于使用文本链接增强的知识图也是如此,其中文档集合中 (ei, ej) 的每次共现都会引发文本定义关系类型的链接。除了查看长度为一路径的特征外,对于观察到的特征模型,我们为三元组中的每个实体和关系定义了一个指示特征。这捕获了这些实体出现在关系的主体或客体位置的偏差。特征是 1(ei = s&rk) 和 1(ej = o&rk),其中 s 和 o 分别表示主客体位置。这些特征可以捕获关系的每个参数被特定实体占用的频率。例如,我们可以了解到美国是 Freebase 中实体的共同国籍。

给定一个特征向量Φi,j,k,三元组的分数由其与参数向量的点积定义,该参数向量包含每个特征的权重:f(xi,j,k;Θ)=ΦTi,j,k。

3.2 Latent feature models

在潜在特征模型中,假设候选三元组的分数仅取决于学习到的实体和关系的潜在特征,以及可能的附加全局参数。在这项工作中,我们考虑了两个简单的潜在特征模型,在之前的工作中发现它们具有竞争力或优于更复杂的替代品(Yang et al., 2015; Riedel et al., 2013)。

我们考虑的第一个模型是模型 E(ENTITY 的缩写),它捕获了实体之间的兼容性以及关系的主客体位置。它可以看作是学习实体类型的软概念。该模型使用通用模式方法应用于文本增强知识图的知识库完成(Riedel 等,2013)。对于每一种关系类型,模型学习两个具有一定维度 K 的潜在特征向量 rs 和 ro。对于每个实体(节点)ei,模型还学习一个相同维度的潜在特征向量 ni。该模型如图 2 所示。其中下标 s 和 o 分别用于表示主语和宾语位置的候选三元组 (es, r, eo) 的得分定义为:f(xs,r, o) = rsT ns + roT no.

 第二个模型 DISTMULT 是双线性模型的一种特殊形式,例如 RESCAL (Nickel et al., 2011),其中关系矩阵中的非对角线元素被假定为零。该模型是由 Yang 等人提出的。 (2015 年)以 DISTMULT 为名,并被证明优于参数化程度更高的双线性模型以及加法模型 TRANSE(Bordes 等人,2013 年)。在这个模型中,每个实体 ei 被分配一个维度为 K 的潜在特征向量(嵌入)ni,每个关系类型被分配一个相同维度的嵌入 r。模型形式如图 3 所示。候选三元组 (es, r, eo) 的得分定义为:f(xs,r,o) = rT (ns ◦ no)。

 如果有 Ne 实体、Nr 关系和维度为 K 的潜在特征向量,则模型 E 具有 KNe + 2KNr 参数,模型 DISTMULT 具有 KNe + KNr 参数。

Combined models

我们还考虑了潜在特征模型和观察到的特征模型的加权组合,其方法类似于 Nickel 等人的加性关系效应模型中使用的方法。 (2014)。给定由两个不同模型定义的评分函数 f1(xi,j,j, Θ1) 和 f2(xi,j,j, Θ2),我们定义了一个组合模型,其中三元组的得分是得分的加权组合两个模型 w1f1(xi,j,j, Θ1) + w2f2(xi,j,j, Θ2)。组件模型可能是观察到的特征模型的潜在模型,组合权重要么是统一的(设置为 1),要么是不统一的,并通过在验证集上的网格搜索来选择。我们通过基于组合分数最小化损失函数来联合训练组合模型的参数。

3.3 Training loss function

我们的损失函数受链接预测任务和用于评估模型性能的性能度量的驱动。如前所述,任务是预测给定三元组(e1,r,e2)的主体或客体实体,即根据它们在三元组中填充相应位置的可能性对所有实体进行排名。因此,我们希望模型对正确三元组 (e1, r, e2) 的评分高于与正确三元组相差一个实体的不正确三元组 (e0, r, e2) 和 (e1, r, e0)。可以使用多种方法中使用的基于边际的损失函数(Nickel 等,2015)。我们使用正确实体填充的负对数似然的近似值。给定关系和另一个参数,我们定义对象和主体实体的条件概率 p(e2|e1, r) 和 p(e1|r, e2),如下所示:

 这里分母是使用一组实体定义的,这些实体不填充训练知识图中任何关系三元组(e1,r,?)中的对象位置。由于此类实体的数量大得不切实际,我们从整个集合中抽取负三元组(我们在实验中使用了 200 个负例)。在某些设置中,我们还将候选实体限制为具有与关系三元组中的位置一致的类型的实体(Chang et al., 2014; Yang et al., 2015)。我们自动推导出近似类型信息(如下所述),但此类信息也可能存在于知识图中。

给定关系和对象的主体实体的条件概率类似地定义如下: p(e1|rk, e2; Θ) =

给定三元组的主客体条件概率的定义,我们的训练损失函数被定义为观察到的三元组的负对数概率之和,还包括对模型参数的 L2 惩罚。如果 X 表示训练知识图中所有三元组的集合,则训练损失定义为: 

 3.3.1 Entity types

我们将实体 e 的类型定义为一对关系类型 [Rs,Ro] 的集合; Rs 是关系类型 r 的集合,其中 e 是训练知识图中类型为 r 的链接的源节点,Ro 是关系类型的集合,其中 e 是类型为 r 的链接的目标节点。对于每个关系,我们通过检查具有给定类型的参数的百分比并将允许的类型限制在顶部 t(在验证集上选择,通常是两个或三个)来计算一组允许的实体类型。例如,对于双亲关系的主语位置,最常见的类型是双亲(意思是双亲的主语)。第二种频繁类型可能是出生在意味着出生于的主题。使用这种结构,我们定义了实体和关系参数位置之间的兼容性,这在许多情况下非常显着地修剪了候选者的空间,同时仍然保持了可实现性能的高上限.第 4 节详细介绍了类型使用的影响。

3.4 Representation and loss for text-augmented knowledge graphs

除了仅包含来自给定手动开发的本体的关系 r 的知识图之外,我们还考虑使用源自实体对的句子共现的文本关系来增强知识图。这遵循了老挝等人的方法。 (2012 年)anf Riedel 等人(2013 年),他们在“通用”关系的单个图中同时表示文本和知识库关系,这允许从两种类型的关系进行联合推理。图 4 显示了在一个句子中一起出现的两个实体之间的词汇化依赖路径。基于此事件将对应于句子的“nsubj← - - - 总统准备- - → of obj- → United States”类型的文本关系实例添加到知识图谱中。实体对的文本共现经常表达实体之间的关系,这可能与知识库关系完全或近似对应。因此,文本可能是预测知识库关系的强烈信号(Lao et al., 2012)。

 一旦知识图谱增加了文本关系,我们就可以像以前一样训练相同的模型,以统一的方式处理知识库和文本关系。但是,由于我们只对预测知识库关系感兴趣,因此模型尝试将其参数拟合到预测文本关系上可能不是最理想的,因为它试图优化知识库关系。换句话说,损失函数中查看文本关系 t 的主客体概率的部分仅用于提供辅助预测任务,该任务有利于使用多任务学习设置的主要任务。因此,人们可能会选择一个最佳权重 τ,它可以预期小于主要损失函数的权重。因此,我们考虑一个用于 KB+文本模型训练的修正损失函数,定义如下。如果使用 KB 关系的所有三元组的集合是 X,使用文本关系的所有三元组的集合是 T,则损失定义为 L(X ∪ T, Θ) = L(X, Θ) + τ L(T, Θ )。在实验部分,我们将看到这种简单的修改可以提供很大的性能优势。

4 Experiments

我们使用潜在和观察到的特征模型及其组合进行实验。我们首先展示了 FB15K 数据集的结果,该数据集由 Bordes 等人原创(使用 Freebase)构建。 (2013 年),随后被用于多项研究(Wang 等人,2014 年;Yang 等人,2015 年)。表 5 中给出了数据集的训练、开发和测试部分中的关系和三元组的数量。

4.1 Task and Evaluation Protocol

给定一组与训练知识图不相交的三元组,我们测试模型预测每个三元组的主题或对象,给定关系类型和另一个参数。我们按照它们填充论点位置的可能性对训练知识库中的所有实体进行排名。我们报告正确实体的平均倒数排名,以及 HITS@10 - 对正确论点进行排名的测试三元组的百分比在前十名中。我们按照 Bordes 等人提出的协议使用过滤措施。 (2013)——也就是说,当我们对给定位置的实体进行排名时,我们会删除所有其他已知属于训练、开发或测试集中现有三元组的实体。这避免了惩罚模型以将其他正确的填充物排名高于测试的参数。因此,我们报告过滤的平均倒数排名(图中标记为 MRR)和过滤的 HITS@10。在图中,我们展示了按 100 缩放的 MRR 值,因此最大可能的 MRR 为 100。

Implementation details and hyper-parameter settings

对于这项工作中实现的所有模型,我们使用第 3.3 节中介绍的损失函数训练模型,使用 λ = 1 作为 L2 正则化器的权重。我们使用了批量学习参数优化方法,经过初步实验表明它比使用 AdaGrad 的随机优化做得更好。我们对 LBFGS (Liu and Nocedal, 1989) 和 RProp (Riedmiller and Braun, 1993) 进行了实验,发现 RProp 可以更快地收敛到潜在特征模型的相似目标值。所有报告的结果都使用 RProp。当验证集上的 MRR 停止改进时,我们还使用提前停止来终止优化。

我们通过网格搜索选择了潜在特征的最佳数量,以优化验证集上的 MRR,测试值 10、50、100、200、500 和 1000。类似地,我们对参数 τ 的值进行了网格搜索,该参数加权文本关系损失,测试集合 {0.01, 0.1, 0.25, 0.5, 1} 中的值。

4.2 Experiments on KB Completion using FB15K and WN18

我们在这些数据集上展示了本文中介绍的不同模型的实验,另外还包括先前工作中报告的结果。我们还评估了我们在训练和测试中使用类型作为硬约束的影响,以及这些约束如何影响潜在特征模型与观察到的特征模型。

图 6 显示了两种设置下的结果:使用自动派生类型与不使用它们。不使用类型的结果显示在图的右半部分。前六行报告使用潜在特征模型获得的性能度量。前三个模型是在第 3.2 节中定义并在这项工作中实现的模型。我们在使用或不使用类型约束时评估这些模型。接下来的三行通过直接从相应论文中复制报告的数字来报告先前工作的结果。由于这些论文没有使用类型约束,我们只在右侧两列中列出了结果。 TransE 模型是在 (Bordes et al., 2013) 中提出的,但我们使用的是 (Yang et al., 2015) 的实施结果,因为这些结果更高。 TransH (bern.) 结果由 (Wang et al., 2014) 中提出的模型获得。

最后三行显示了观察到的特征模型的结果,如第 3.1 节所定义,其中第一个模型仅使用节点特征,第二个仅使用直接链接特征,第三个使用两种特征类型。

类型约束是使用第 3.3.1 节中介绍的方法定义的。我们根据验证集中正确三元组的覆盖范围为该方法选择最佳设置。考虑到通过类型过滤对候选对象进行硬剪枝,使用类型的方法可实现的准确率低于 100%——使用类型约束的 oracle HITS@10 为 98.3。我们发现潜在特征的数量对模型 E 的性能影响不大,但对其他两个模型的影响却很大。对于这两个模型,使用 500 个隐藏维度是最佳的。尽管 DISTMULT 的评分函数的形式与 (Yang et al., 2015) 中定义的完全相同,但我们获得了更高的性能。我们将此归因于更多的隐藏维度(500 对 100),以及使用基于 softmax 的损失函数和 200 个负样本和批量训练。1 可以看出,类型约束的影响很大而且是积极的,尤其是关于 MRR 值。我们对这些嵌入模型的实现优于 TransH (Wang et al., 2014) 最近的其他结果,我们也将其归因于损失函数和优化。

该数据集上最引人注目的结果在表的最后两行中可以看到,我们可以在其中看到基于直接链接的观察到的特征模型的性能。这些模型的性能(在 MRR 中)比在这项工作和先前工作中获得的潜在特征模型的性能要高得多。当我们查看在训练集中出现 (e1, r0, e2) 或 (e2, r0, e1) 的测试集三元组 (e1, r, e2) 的数量时,这可能并不令人惊讶——即在训练知识图谱中直接链接。这个数字几乎是 81%(见表 5),并解释了为什么直接使用这些信息的观察特征模型可以做得很好。更令人惊讶的是,即使给定大量潜在特征维度,潜在特征模型也没有达到这种性能。我们看到这是一个有趣的数据点,它可以激发分析和改进使用潜在变量模型完成知识库的最新技术。

这些实验的另外两个有趣的结果是,观察到的特征模型仅使用实体特征 (NodeFeat) 具有与潜在特征模型 E 几乎相同的性能,并且两者都可以看作是学习实体上的一元分布以获取关系的参数位置。此外,观察到的特征模型基本上不受使用类型约束的影响,因为它们有效地学习使用特征对相似的类型概念进行建模。

我们还在 WN18 上测试了模型,并报告了使用潜在特征模型的先前工作的结果,以及我们在图 8 中对观察到的特征模型的实现。如图所示,使用链接特征的观察到的特征模型在 MRR 测量中明显优于先前的工作(与先前报告的最佳结果相比,误差减少了约 45%),并且与根据 HITS@10 度量的最佳模型相当。如表 5 所示,94.0 的测试三元组实体直接链接在训练 KB 中,解释这些简单模型的成功。

鉴于我们对 FB15k 和 WN18 数据集的分析以及简单观察到的特征模型的强大功能,我们有动力构建一个更现实的知识库完成数据集,我们可以为此假设微不足道的事实(由于关系对称性或逆向的存在)关系)已经被推断出来,任务是包含需要非平凡推断的事实。为此,我们构建了 FB15K 的一个子集,我们称之为 FB15KSelected,它代表了更具挑战性的学习环境。

4.3 Experiments using knowledge graph and text inference on FB15KSelected

数据集 FB15KSelected 是通过首先将 FB15K 中的关系集限制为最常用的 401 关系来构建的(在 (Yang et al., 2015) 中也使用了使用此频繁关系子集的设置)。然后,我们通过检查关系中的实体对集合是否几乎相同(至少 97% 的实体对在交集中)或反向实体对的集合是否几乎相同,自动检测近似重复和反向关系相同的例如将 r 的 [e1, e2] 与 r0 的集合 [e2, e1] 进行比较。例如,此过程检测到关系 /award/award nominee 与 /award nominee/award 是逆关系。给定这些信息,我们过滤了一组关系,只保留一组反向或重复关系中的一个;这产生了 237 个关系,我们将训练、验证和开发集三元组限制为这些关系。我们还从验证集和测试集中过滤了实体对直接链接到训练数据库中的任何三元组。诚然,这种直接链接可以合法地存在于现实场景中,但我们将它们排除在外,以避免通过先前的过滤步骤无法检测到的其他琐碎情况。该结果数据集的统计数据如表 5 所示。

虽然对于这个更现实的数据集,我们排除了测试实体对的所有直接 KB 链接,但测试实体对之间存在直接关系的现实来源——由包含这些实体对的句子表达的文本关系。我们使用 ClueWeb12 语料库和 Freebase提及注释 (Gabrilovich et al., 2013) 以提取知识库中所有实体对的文本关系。我们从 2 亿个依赖解析的句子中提取文本模式,并通过连接两个实体的完全词汇化的依赖路径来表示文本关系,如图 4 所示。修剪后,我们使用 25,000 个独特的文本关系并将链接添加到训练知识图谱基于这些关系。 FB15KSelected 知识库的文本关系引出了 660 万个链接。在测试 KB 三元组中,23.3% 的实体对有文字提及。对于训练集,具有 KB 链接的实体对中有 31% 有文本提及,并且提及将随机实体对具有关系的机会从 0.1% 提高到 4.2%——增加了 40 倍。

 图 7 显示了该数据集的结果——上半部分包含不使用文本提及的模型的结果,下半部分包含也使用文本的模型的结果。使用 MRR 和 HITS@10 度量显示结果,这些结果进一步细分为整体/有文字提及/没有文字提及 (a/t/nt)。

对于不使用文本提及的设置,我们看到潜在特征模型优于观察到的特征模型(因为在训练集中没有直接链接用于测试三元组,观察到的特征模型 LinkFeat 的性能是随机的,受类型约束(以及在训练集中按出现顺序打破联系的地方))。仅使用节点特征最适合观察到的特征模型,并且该模型的整体 MRR (23.5) 远低于最佳潜在特征模型 E+DISTMULT 的整体 MRR 为 26.6。观察到的特征(如第 7 行所示),并没有带来实质性的改善。

Conclusion

这项工作为知识库的完成提供了两个主要经验教训。首先,我们表明,在某些情况下,候选对之间关系的存在可能是一个非常强的信号,并且该信号没有被所研究的潜在特征模型有效地捕获。其次,我们展示了从大型文档集合中提取的文本链接并添加到现有的 KBcompletion 数据集带来了实质性的改进,尤其是在出现文本的测试用例上。将直接文本链接用作观察特征模型中的特征并将其与潜在特征模型相结合,以有效地捕获知识库关系之间的推论和来自文本的直接线索是有益的。我们还表明,在训练和测试三元组不人为地仅限于具有文本提及的数据集中,权衡文本与知识库关系所产生的损失的权重变得很重要。

### Gaussian Mixture Models (GMMs): EM Algorithm versus Variational Inference In the context of machine learning, both Expectation-Maximization (EM) algorithms and variational inference serve as powerful tools for parameter estimation within probabilistic models such as Gaussian mixture models (GMMs). However, these methods differ significantly in their approach to handling uncertainty. #### The Expectation-Maximization (EM) Algorithm The EM algorithm is an iterative method used primarily when dealing with incomplete data or latent variables. It alternates between two steps until convergence: - **E-step**: Compute the expected value of the log likelihood function concerning unobserved data given current estimates. - **M-step**: Maximize this expectation over parameters to find new values that increase the probability of observing the training set[^2]. For GMMs specifically, during each iteration, the E-step calculates responsibilities indicating how likely it is for a point to belong to any particular cluster; meanwhile, the M-step updates means, covariances, and mixing coefficients based on those computed probabilities. ```python from sklearn.mixture import GaussianMixture gmm_em = GaussianMixture(n_components=3, covariance_type='full') gmm_em.fit(X_train) ``` #### Variational Inference Approach Variational inference takes a different path by approximating complex posterior distributions through optimization rather than sampling techniques like Markov Chain Monte Carlo (MCMC). This approximation involves constructing a simpler family of densities—often referred to as "variational distribution"—and finding its member closest to the true posterior according to Kullback-Leibler divergence criteria[^1]. When applied to GMMs, instead of directly computing exact posteriors which might be computationally prohibitive due to high dimensionality or large datasets, one defines a parametric form q(z|x), where z represents hidden states while x denotes observed features. Then optimize parameters so that KL[q||p] becomes minimal possible under chosen constraints. ```python import tensorflow_probability as tfp tfd = tfp.distributions model = tfd.JointDistributionSequential([ # Prior p(pi) tfd.Dirichlet(concentration=[alpha]*num_clusters), lambda pi: tfd.Sample( tfd.Normal(loc=tf.zeros([dim]), scale=tf.ones([dim])), sample_shape=num_clusters, name="means" ), ]) ``` #### Key Differences & Applications While both approaches aim at inferring unknown quantities from noisy observations, they exhibit distinct characteristics making them suitable for various scenarios: - **Computational Efficiency:** Generally speaking, EM tends to converge faster but may get stuck into local optima more easily compared to VI whose global search capability can sometimes lead to better solutions albeit slower computation time. - **Flexibility:** Due to reliance upon specific assumptions about underlying structure, traditional EM implementations are less flexible regarding model specification changes whereas Bayesian nonparametrics paired with VI offer greater adaptability without sacrificing much performance. - **Uncertainty Quantification:** One significant advantage offered by VI lies in providing full density functions over learned parameters thus enabling richer interpretations beyond mere point estimates provided typically via maximum likelihood estimators employed inside standard EM procedures. --related questions-- 1. How does the choice between EM and VI impact real-world applications involving massive datasets? 2. Can you provide examples illustrating situations favoring either technique over another? 3. What modifications could enhance classical EM's robustness against poor initialization issues commonly encountered? 4. Are there hybrid strategies combining strengths of both methodologies worth exploring further?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值