论文阅读 | Supervised Topic Models（包含推导证明、理解、注释等）-CSDN博客

本文链接：https://blog.csdn.net/weixin_43951328/article/details/103717902

本文深入探讨了Supervised Latent Dirichlet Allocation (sLDA)模型，一种结合主题模型与广义线性模型的监督学习方法。sLDA不仅用于文档主题建模，还能预测响应变量，如电影评论的评分。文章详细介绍了模型的推导过程，包括后验推断、参数估计和预测，特别讨论了高斯和泊松响应变量的特殊情况。实验部分展示了sLDA在电影评论情感分析和参议院修正案预测上的应用，证明了其在预测性能上的优势，尤其是在与LDA和LASSO的对比中表现突出。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Supervised Topic Models

摘要： sLDA（supervised latent Dirichlet allocation）是针对标记文档的主题模型，该模型采用变分EM算法，适用于多种响应变量（response variable），优于lasso和先使用无监督主题模型再进行回归。

1 背景

现在有很多大型语料库，需要建立合适的统计模型对其进行分析，如基于主题的分层统计模型LDA等，但现在的主题模型大都是无监督的，只对文档中的单词进行建模，最大化其后验概率。

本文关注有响应变量的文档，如电影评论有数字作为评级、论文有下载次数，对其建立监督主题模型，和无监督主题模型主要用于分类（降维）不同，sLDA主要用于预测。

2 模型

主题模型中每个文档被表示为单词 $w_{1:n}$ 的集合，我们将文档看成是一组潜在主题产生的单词，即词汇上的一组未知分布。语料库中的文档共享相同的K个主题，但是不同的文档有不同的主题比例。在LDA中，我们从狄利克雷分布中抽取主题比例，然后从这些比例中抽取一个主题，再从相应的主题中抽取一个单词，重复 $n$ 次构成一个文档。

在sLDA中，我们在LDA的基础上，对每个文档添加一个响应变量，对文档和响应变量共同建模，以便找到潜在的主题，从而最好地预测未标记文档的响应变量。

sLDA使用与广义线性模型相同的概率机制来适应各种类型的响应变量：无约束实值、被约束为正的实值（例如故障时间）、有序或无序的类标签、非负整数（例如计数数据）等。

模型参数：

$K$ 个主题 $\beta_{1:K}$ ， $\beta_k$ 是第k个主题中每个词出现概率的向量
狄利克雷参数 $\alpha$
响应参数 $\eta,\delta$

在sLDA中，每个文档和响应变量都来自以下生成过程：

抽取主题比例 $\theta | \alpha \sim \operatorname{Dir}(\alpha)$
对于每一个词：
（a）抽取主题 $z_{n} | \theta \sim \operatorname{Mult}(\theta)$
（b）抽取单词 $w_{n} | z_{n}, \beta_{1: K} \sim \operatorname{Mult}\left(\beta_{z_{n}}\right)$
抽取响应变量 $z_{1: N}, \eta, \delta \sim \operatorname{GLM}(\bar{z}, \eta, \delta)$ ，其中 $\bar{z}=\frac1N\sum_{n=1}^{N} z_{n}$

图示如下：
Alt

图1 sLDA的图形表示

响应变量的分布为广义线性模型 $p\left(y | z_{1: N}, \eta, \delta\right)=h(y, \delta) \exp \left\{\frac{\left(\eta^{\top} \bar{z}\right) y-A\left(\eta^{\top} \bar{z}\right)}{\delta}\right\} \tag 1$

$h(y,\delta)$ 为潜在测度， $\eta^{\top}\bar z$ 为自然参数， $\delta$ 为分散参数（为对 $y$ 的方差建模提供了灵活性）， $A(\eta^{\top}\bar z)$ 对数规范化因子

GLM框架为我们提供了对不同类型的响应变量建模的灵活性，只要响应变量的分布可以被写成上式指数分散族（exponential dispersion family）的形式。包括很多常用分布，如正态分布（适用于实值响应变量）、二项分布（适用于二项响应变量）、多项分布（适用于分类响应变量）、泊松分布和负二项分布（适用于计数响应变量）、伽马分布和威布尔分布和逆高斯分布（适用于故障时间数据）等。每个分布都对应于特定的 $\delta)$ 和 $A\left(\eta^{\top} \bar{z}\right)$ 。

sLDA与通常的GLM的区别在于协变量是文档中主题的经验频率，这些经验频率是不能直接观测到的。在生成过程中，这些潜在的变量负责生成文档的单词，因此响应变量和单词得以联系在一起。回归系数记为 $\eta$ 。注意到GLM中通常包含截距项，相当于添加一个恒等于1的协变量，而在sLDA中，这一项是多余的，因为 $\bar z$ 的各分量和恒为1。

对主题的经验频率而不是主题比例 $\theta$ 进行回归，前者将响应变量和单词视为是不可交换的（exchangeable），首先在全部单词可交换的条件下生成文档（单词及其主题分配），然后基于该文档生成响应变量，后者将响应变量和单词视为是可交换的。前者更加合理，因为响应变量取决于文档中实际出现的主题频率，而不是产生主题的分布，如果主题数足够多，在后者中允许一些主题被完全用来解释响应变量，另一些主题被完全用来解释单词的出现，这降低了预测的性能，而在前者中，决定响应变量的潜在变量和决定单词出现的潜在变量是相同的。~~这个模型不能推断用于解释响应变量的主题集合，也不能用它来解释一些观测到的单词。~~

3 推导

推导包括三个部分：

后验推断：给定单词 $w_{1:N}$ 和语料库范围内的模型参数，计算文档级别的潜变量的条件分布，即主题比例 $\theta$ 和主题分配 $z_{1:N}$ 的条件分布。这个分布不能直接计算，我们采用变分推断对其进行近似。
参数估计：给定文档和响应变量对 $\left\{w_{d, 1: N}, y_{d}\right\}_{d=1}^{D}$ ，估计狄利克雷参数 $\alpha$ ，GLM参数 $\eta$ 和 $\delta$ ，主题多项式 $\beta_{1:K}$ 。我们采用变分EM算法。
预测：给定新文档 $w_{1:N}$ 和模型参数，预测响应变量 $y$ 。这相当于近似得到后验期望 $\mathrm{E}\left[y | w_{1: N}, \alpha, \beta_{1: K}, \eta, \delta\right]$

我们针对sLDA的一般GLM设置依次处理这些问题，并指出需要计算或近似GLM特定量的位置，然后针对高斯响应变量和泊松响应变量的特殊情况计算精确的式子，最后对其它响应变量分布采用通用的近似方法。

3.1 后验推断

参数估计和预测都依赖于后验推断，给定文档和响应变量，潜变量的后验分布是 $\begin{aligned}p(\theta, z_{1: N} &| w_{1: N}, y, \alpha, \beta_{1: K}, \eta, \delta )\\ &= \frac{p(\theta | \alpha)\left(\prod_{n=1}^{N} p\left(z_{n} | \theta\right) p\left(w_{n} | z_{n}, \beta_{1: K}\right)\right) p\left(y | z_{1: N}, \eta, \delta\right)}{\int d \theta p(\theta | \alpha) \sum_{z_{1: N}}\left(\prod_{n=1}^{N} p\left(z_{n} | \theta\right) p\left(w_{n} | z_{n}, \beta_{1: K}\right)\right) p\left(y | z_{1: N}, \eta, \delta\right)} \tag 2\end{aligned}$

归一化值为观察到的值，即文档 $w_{1:N}$ 和响应变量 $y$ 的边际概率，我们采用变分方法来近似后验概率。

变分方法包括许多类型的后验归一化值的近似，这里我们使用平均场变分推断（ $q(\boldsymbol z)$ 对 $\boldsymbol z$ 的所有分量是独立的， $q(\boldsymbol z)=q(z_1)q(z_2)\dots q(z_n)$ ），其中詹森不等式用于归一化值的下限，令 $\pi$ 表示模型参数值， $\pi=\left\{\alpha, \beta_{1: K}, \eta, \delta\right\}$ ，令 $q\left(\theta, z_{1: N}\right)$ 表示潜在变量的变分分布。变分分布与真实后验分布的的KL散度 $\begin{aligned}D(q(\theta,z_{1:N})&\Vert p(\theta,z_{1:N}|w_{1:N},\pi))\\&=\mathrm{E}_q[\log q(\theta,z_{1:N})]-\mathrm{E}_q[\log p(\theta,z_{1:N}|w_{1:N},\pi)]\\&=\mathrm{E}_q[\log q(\theta,z_{1:N})]-\mathrm{E}_q[\log p(\theta,z_{1:N},w_{1:N}|\pi)]+\log p(w_{1:N}|\pi)\\&\geq 0\tag 3\end{aligned}$

因此证据下界（ELBO）为 $\log p(w_{1:N}|\pi)\geq \mathrm{E}_q[\log p(\theta,z_{1:N},w_{1:N}|\pi)]-\mathrm{E}_q[\log q(\theta,z_{1:N})] \tag 4$

我们将其记为 $\mathcal{L}(\cdot)$ ，第一项为对隐藏变量和观察变量联合概率的对数的期望，第二项为变分分布的熵，记 $\mathrm{H}(q)=-\mathrm{E}\left[\log q\left(\theta, z_{1: N}\right)\right]$ ，在其拓展形式中，sLDA ELBO为 $\begin{aligned}\mathcal{L}\left(w_{1: N}, y | \pi\right)&=\mathrm{E}_q[\log p(\theta | \alpha)]+\sum_{n=1}^{N} \mathrm{E}_q\left[\log p\left(z_{n} | \theta\right)\right] \\&+\sum_{n=1}^{N} \mathrm{E}_q\left[\log p\left(w_{n} | z_{n}, \beta_{1: K}\right)\right]+\mathrm{E}_q\left[\log p\left(y | z_{1: N}, \eta, \delta\right)\right]+\mathrm{H}(q)\tag 5\end{aligned}$

在变分推断中，我们首先为变分分布构造一个参数化族，然后对给定的观测值拟合它的参数以最大化（5）式。变分分布的参数化决定了优化的速度。当 $q\left(\theta, z_{1: N}\right)$ 就是后验分布时，（5）式恰好等于 $\log p(w_{1:N}|\pi)$ ，但是包含后验分布的分布族会导致难以解决的优化问题，因此我们选择了一个更简单的可以完全分解的族 $q\left(\theta, z_{1: N} | \gamma, \phi_{1: N}\right)=q(\theta | \gamma) \prod_{n=1}^{N} q\left(z_{n} | \phi_{n}\right)\tag6$

这里 $\gamma$ 是 $K$ 维狄利克雷参数， $\phi_n$ 是 $K$ 维多项分布， $z_n$ 为 $K$ 维指示向量，有 $\mathrm{E}\left[z_{n}\right]=q\left(z_{n}\right)=\phi_{n}$ 。最大化（5）式相当于找到在KL散度意义下最接近后验分布的变分分布。因此，给定文档和响应变量对，我们寻找使（5）式最大化的 $\phi_{1:N}$ 和 $\gamma$ ，从而估计后验分布。

在解决优化问题之间，我们进一步展开（5）式。前三项和变分分布的熵与无监督LDA相同：

第一项： $\mathrm{E}[\log p(\theta | \alpha)]=\log \Gamma\left(\sum_{i=1}^{K} \alpha_{i}\right)-\sum_{i=1}^{N} \log \Gamma\left(\alpha_{i}\right)+\sum_{i=1}^{K}\left(\alpha_{i}-1\right) \mathrm{E}\left[\log \theta_{i}\right]\tag 7$

推导：根据狄利克雷分布 $p(\theta | \alpha)=\frac{\Gamma\left(\sum_{i=1}^{K} \alpha_{i}\right)}{\prod_{i=1}^K\Gamma(\alpha_i)}\prod_{i=1}^K\theta_i^{\alpha_i-1}$

第二项： $\operatorname{E}\left[\log p\left(z_{n} | \theta\right)\right]=\sum_{i=1}^{K} \phi_{n, i} \mathrm{E}\left[\log \theta_{i}\right]\tag 8$

推导： $\begin{aligned} E\left[\log p\left(z_{n} | \theta\right)\right] &=E_{q\left(\theta, z_{n} | \gamma, \phi_{1:N}\right)}\left[\log p\left(z_{n} | \theta\right)\right] \\ &=\sum_{i=1}^{K} q\left(z_{n,i} | \phi_{n}\right) E_{q(\theta | \gamma)}\left[\log \theta_{i}\right] \\&=\sum_{i=1}^{K} \phi_{n, i} \mathrm{E}\left[\log \theta_{i}\right]\end{aligned}$

第三项： $\mathrm{E}\left[\log p\left(w_{n} | z_{n}, \beta_{1: K}\right)\right]=\sum_{i=1}^{K} \phi_{n, i} \log \beta_{i, w_{n}}\tag {9}$

推导： $\begin{aligned} E\left[\log p\left(w_{n} | z_{n}, \beta_{1:K}\right)\right] &=E_{q\left(z_{n} | \phi_n\right)}\left[\log p\left(w_{n} | z_{n}, \beta_{1:K}\right)\right] \\ &=\sum_{i=1}^{K} q\left(z_{n,i} | \phi_n\right) \log p\left(w_{n} | z_{n,i}, \beta_{1:K}\right) \\ &=\sum_{i=1}^{K} \phi_{n, i} \log \beta_{i, w_{n}} \end{aligned}$