解读黑盒Transformer模型与探索任务无关的Transformer模型
1. 解读黑盒Transformer模型
在自然语言处理(NLP)中,解读Transformer模型是一项重要任务。其目标是确定特征的局部存在与否,这里的特征指的是可重构为单词的标记。
1.1 LIME算法
LIME(Local Interpretable Model-agnostic Explanations)可用于任何Transformer模型。在LIME中,g代表一个Transformer模型或其他机器学习模型,G是包含g的一组Transformer模型。LIME的工作方式如下:
- 针对一个单词,在其局部上下文中搜索其他单词。
- 提供该单词的局部上下文,以解释为何预测的是这个单词而非其他单词。
1.2 可视化接口
可以访问 这个网站 进行交互式Transformer可视化。操作步骤如下:
1. 选择一个要分析的Transformer因子。
2. 点击想要可视化该因子的层。
通过可视化,可以看到因子层的激活情况,以及不同层中因子的表示。例如,因子421在较低层关注“separate”的词汇领域,随着层数增加,它开始将“separate”与“distinct”关联起来,展现出对语言更深入的理解。
1.3 模型的随机性
Transformer模型在选择标记前会生成候选词,且具有随机性。以句子