表格数据的可解释人工智能研究综述
代码
链接: code
// An highlighted block
var foo = 'bar';
论文
链接: paper
3puss3
如果要是我来写这篇文章,我会如何组织这个结构?
问题是怎么提出的、如果是我来做这个事情的话该怎么办,我应该可以用什么方法来实现、
实验我应该这么做,能不能比他做得更好、我怎么做没有往前走的部分。
--脑补出它整个流程是什么样子的,似乎是自己在做实验,写论文一样。
第三遍之后,关上文章也能会回忆出很多细节的部分和整体流程,之后在基于它做研究时(可以详详细细的复述一遍)。
3.1 存在什么问题
// A code block
var foo = 'bar';
3.2 有什么方法解决问题
// A code block
var foo = 'bar';
1puss1
1.1标题title
表格数据的可解释人工智能:一项调查
1.2摘要abs
摘要 机器学习技术由于在学术界和工业界各个学科的广泛使用而越来越受到关注。 尽管取得了巨大的成功,但许多此类技术都遇到了“黑匣子”问题,即数据分析师无法解释为什么此类技术会做出某些决策的情况。 这个问题激发了人们对可解释人工智能(XAI)的兴趣,它指的是人类可以轻松解释的技术。 不幸的是,其中许多技术并不适合表格数据,考虑到表格数据在金融、医疗保健和刑事司法等关键应用中的重要性和广泛使用,这是令人惊讶的。 同样令人惊讶的是,尽管有关 XAI 的文献数量巨大,但迄今为止仍然没有关注表格数据的调查文章。 因此,尽管现有的调查文章涵盖了广泛的 XAI 技术,但对于处理表格数据的研究人员来说,浏览所有这些调查并提取适合其分析的技术仍然具有挑战性。 我们的文章通过提供与表格数据相关的 XAI 技术的全面且最新的调查来填补这一空白。 此外,我们对调查中涵盖的参考文献进行了分类,表明所解释的模型的类型、用于提供解释的方法以及所解决的 XAI 问题。 我们的文章是第一篇为研究人员提供地图的文章,帮助他们在表格数据的背景下浏览 XAI 文献。
1.3结论conclusion
1.4研究背景intro
最近人们对机器学习 (ML) 和人工智能 (AI) 的兴趣激增,催生了一系列旨在在各个领域做出决策的模型,包括医疗保健 [1]–[3]、金融系统 [4]–[ 7] 和刑事司法 [8]-[10],仅举几例。 在评估替代模型时,似乎很自然地会选择更准确的模型。 然而,对准确性的痴迷导致了意想不到的后果,因为开发人员经常通过使模型变得越来越复杂和难以理解来努力以牺牲可解释性为代价来获得更高的准确性[11]。 当模型被赋予做出影响人们福祉的关键决策的权力时,缺乏可解释性就成为一个严重的问题。 这些担忧在欧盟的表态中得到体现最近的《通用数据保护条例》保证了解释权,即理解对个人产生负面影响的算法决策背后的基本原理的权利[12]。 为了解决这些问题,人们提出了许多技术来使人工智能的决策过程更容易被人类理解。 这些“可解释的人工智能”技术(通常缩写为 XAI)是本次调查的主要焦点。
在深入研究 XAI 文献之前,让我们先描述一下本文中将使用的关键术语。 首先,区分解释interpretation和解释explanation这两个术语很重要,因为它们经常互换使用,而实际上它们具有不同的含义。 特别是,前者涉及使用人类可理解的术语表达抽象概念,而后者涉及指出对特定实例的结果做出贡献的特征[13]。 诚然,这些定义是非正式的,因为没有正式的定义迄今为止的 XAI 文献 [14]。 文献中经常提到的另一个术语是透明度。 根据 Lipton 的分类法 [15],模型透明度分为三个概念:
• 可模拟性,反映用户对模型整体的思考程度;
• 可分解性,反映每个输入、参数、计算能够直观解释的程度;
• 算法透明度,反映学习算法内部运作的可理解程度。
例如,基于规则的模型 [16] 被认为是透明的,因为它们使用一系列易于理解的 if-then 规则,无需任何进一步的解释。 与透明模型不同,黑盒模型不能以人类可以理解的方式解释其预测[17]。 黑盒模型的例子包括人工神经网络[18]和梯度提升[19]。 尽管黑盒模型很难被人类解释,但与透明模型相比,它们往往具有更高的预测精度。 准确性和透明度之间的这种权衡引发了黑盒解释问题,其中涉及解释黑盒模型决策背后的基本原理。 通过提供这样的解释,人们可以继续使用高精度的黑盒模型而不牺牲透明度。 根据吉多蒂等人的说法。 [20],黑盒解释问题可以分为以下几类:
• 模型解释问题,需要解释黑盒模型背后的底层逻辑。 这通常是通过使用更透明和可解释的替代模型来近似黑盒行为来完成的。
• 模型检查问题,需要提供底层模型或其结果的某些属性的视觉或文本解释,目的是了解输入更改时黑盒的内部行为。
• 结果解释问题,需要通过解释结果是如何生成的或解释如何使用反事实分析来改变结果,从而在给定感兴趣的实例的情况下解释模型的结果。
上述每个问题都可以使用不同类型的技术来解决,这些技术可以分类如下:
• 特定于模型的技术,利用其旨在解释的模型的参数和特征[21]。 此类技术的力量源于它们访问模型内部(例如权重或结构)的能力,但这种能力是有代价的,因为它们不能轻易推广到其他模型。
• 与模型无关的技术,原则上可以在任何机器学习模型上使用,以提供事后解释,即在之后生成的解释该模型已经过训练[22]。 这些技术的缺点是它们无法利用模型内部的优势,因为它们只能分析输入输出对。
许多 XAI 技术 [43]-[46],无论它们是特定于模型的还是与模型无关的,都不适合表格数据,即所有记录共享相同特征的数据,并且每个此类特征要么是数字,要么是数字, 分类或布尔值。 重要的是,为图像或文本定制的技术不能轻易应用于表格数据[47]。 这是因为表格数据具有独特的特征,例如特征之间的潜在依赖性和相关性、连续特征和分类特征的存在以及数据集的时间方面。 图像和文本数据集中缺少这些特征,因为它们主要由二维空间中的单词和像素组成。 因此,清楚地区分与表格数据兼容的技术非常重要。 受这一观察的启发,我们的文章对与表格数据相关的 XAI 技术进行了全面且最新的调查,并讨论了在此背景下解决 XAI 问题的各种方向。 我们特别注意确保以易于理解和清晰的方式呈现不同技术背后的直觉,并附有插图示例。
因此,读者不被认为是机器学习和人工智能方面的专家。 为了帮助读者浏览这些文献,我们提供了一个地图,对我们的调查中涵盖的参考文献进行了分类,请参见图 1。这里,列表示正在解释的模型的类型,行表示表示用于提供解释的方法,颜色表示正在解决的黑盒解释问题。 此外,行根据所提供的解释的形式进行分组。 这样,读者可以轻松识别感兴趣的参考文献。
图 2 概述了本次调查。 特别是,对于每个黑盒解释问题(无论是模型解释、模型检查还是结果解释)以及文献中介绍的每种类型的技术(无论是模型特定的还是模型不可知的),该图指定了相应的 部分以及其中涵盖的参考文献。
二. XAI 用于结果解释
在本节中,我们将回顾为解决结果解释问题而提出的 XAI 技术。 回想一下,这个问题涉及解释模型针对任何给定实例的决策背后的基本原理,而不必解释底层模型的逻辑。 该文献中的大多数技术与模型无关。 相比之下,只有少数技术是特定于模型的,其中一些技术被用作与模型无关的对应技术的基础。 鉴于这一观察,我们决定展示这两种类别(即与模型无关的和特定于模型的)位于同一部分(第 II-A 节)中,而不是将它们分为两个不同的小节。 II-B 节提出了反事实解释,它们是基于示例的解释,指定如何修改实例以使其分类变为另一个所需的类别。 本节分为两小节:第 2 节介绍特定于模型的技术,而第 3 节介绍与模型无关的技术。
A. 解释如何生成结果 表 1 总结了本节将讨论的技术。 Poulin 等人提出的ExplainD 框架是构建模型无关技术来解释黑盒模型结果的首批尝试之一。 [23]。 它使用加性模型的概念来权衡输入特征在分类器决策中的重要性。 加法模型是多元回归的推广,其中使用非参数函数代替每个变量的单个系数。 在加性模型中,结果可以表示为自变量的加权和,因此结果的部分由一个自变量不依赖于任何其他自变量的值。 ExplainD 是一个图形解释框架,提供预测分类的可视化(图 3A)、潜在决策的相对强度以及每个特征对这些决策的贡献(图 3B)、通过改变进行“假设分析” 特征值(图 3C)、整个分类器上下文中的特征证据(图 3D)以及访问支持特征贡献证据的数据的可能性(图 3E)。 与之前提出的用于解释特定模型决策的技术(例如信念网络 [48] 或朴素贝叶斯分类器 [49]、[50])相比,ExplainD 为更广泛的附加模型提供解释,还涵盖逻辑回归和支持向量机( 支持向量机)。 Robnik 和 Kononenko [51] 提出了ExplainD 的扩展,它不仅涵盖了加法分类器,还涵盖了概率模型。
ExplainD 开发十年后,Ribeiro 等人提出了一种突破性的模型不可知技术。 [24]称为 LIME,代表局部可解释的与模型无关的解释。 该技术能够解释任何分类器的预测,其工作原理如下。 局部代理模型(可解释并用于解释 ML 模型的各个预测的模型)经过训练以近似底层模型的预测。 目标是了解机器学习模型为何做出特定预测。 这是通过从原始数据及其 ML 模型的相应预测中采样,从感兴趣实例周围的扰动数据点创建新数据集来实现的。 在这个新数据集上,LIME 训练一个本地代理模型,其中每个采样实例都根据其与感兴趣实例的接近程度进行加权。 图 4 展示了一个示例。
LIME 的优点之一是其计算复杂性允许在合理的时间内在数千个实例上运行。 因此,如果它被用来解释实例的代表性样本,那么这些解释将构成所考虑的模型的全局解释。 另一方面,LIME 有许多限制。 首先,由于生成的解释是基于随机扰动,因此结果可能缺乏稳定性[52]。 其次,LIME对数据集维度很敏感,当用于相对大量的特征(例如100个或更多)时,局部解释无法区分相关和不相关的特征,这可能会导致性能不佳[ 53],[54]。 最近基于与 LIME 中使用的类似的想法提出了许多技术,其中一些技术旨在解决上述限制。 尤其:
• Shankaranarayana 和 Runje [28] 在 LIME 框架中使用自动编码器作为权重函数,并凭经验证明这提高了 LIME 的稳定性。
• 扎法尔和可汗。 [26]提出了另一种提高 LIME 稳定性的技术,该技术使用分层聚类而不是随机扰动对训练数据进行分组,然后选择与所解释的实例最相关的聚类。
• 维萨尼等人。 [53]、[54]提出了两个稳定性指标,这两个指标都是通过重复调用 LIME 来计算的。 虽然这些指数不能解决 LIME 的稳定性问题,但它们可以帮助用户了解所获得结果中任何潜在的不稳定性。
• Elshawi 等人。 [27] 根据 (i) 线性模型中的实例对要解释的实例的影响,以及 (ii) 其距离来权衡排列数据集中的每个实例正在解释的实例; 这样,所得系数就可以反映特征排名。
• 帕尼古蒂等人。 [29]使用排列后的数据集为健康记录数据集中的每个患者训练决策树,然后从决策树中提取基于规则的解释。 这确保了结果解释与顺序、多标记、基于本体的数据兼容。
图 3.ExplainD 框架的图示。 该插图使用阻塞性冠状动脉疾病 (CAD) 的诊断示例描述了ExplainD 框架背后的直觉。 在此示例中,医生使用加法分类器来预测 35 岁男性是否患有 CAD。 A. 分类器的判定是该人没有 CAD,因为 CAD 的概率小于没有 CAD 的概率。 B. 一张插图显示没有 CAD 的证据如何比患有 CAD 的证据更强(看看标有“-”的矩形如何比标有“+”的矩形长)。 每个证据由对应不同特征的多个附加成分组成。 C. 决策推测,显示如果特征值不同,分类将如何变化。 D. 根据特征对分类器决策的影响对特征进行排序。 E. 为了验证分类器的决策是否符合期望,用户可以审核决策标签与任何给定特征之间的关系。 例如,如果特征是“糖尿病”,则用户可以按标签(CAD 和无 CAD)和特征值(糖尿病和非糖尿病)对训练数据进行切片,并检查每个象限中的数据摘要以了解如何 分类器确定了糖尿病和 CAD 之间的关系。
图 4. LIME 和锚的图示。 该图描述了两种替代技术(即 LIME 和 Anchors)背后的直觉,它们针对具有两个特征的样本数据集。
A. 训练数据集,其中每个示例都有两个特征:x1 和 x2。
B. 数据被输入到 ML 模型,例如神经网络。
C. ML 模型产生决策边界,将数据空间划分为数据被分类为“−”(以粉色突出显示)的区域和数据被分类为“+”(以蓝色突出显示)的其他区域 )。 该图还突出显示了需要解释的实例; 查看数据空间中标记为“-”的数据点。
D. 数据和模型的预测以及需要解释的实例一起输入 LIME。 然后,LIME 从数据集中采样实例并在本地运行线性模型,为更接近感兴趣实例的点分配更高的权重。 该模型的结果是一个决策边界,如图中虚线所示,LIME 使用该边界来确定每个特征对该邻域的分类的重要性。
E. 与 (D) 相同,但用于锚而不是 LIME。 特别是,该技术确定了定义“锚点”的特征值范围,即给定实例周围的区域,其中分类与实例相匹配; 请参阅虚线矩形。 该技术的输出是定义该区域的 if-then 规则。 例如,在我们的插图中,输出将是以下规则:如果 (1≤ x1 ≤ 2) 且 (1≤ x2 ≤ 3),则将数据点分类为“−”。
F. 向分析师提供实例级解释,说明不同特征如何影响模型的预测,并相应地做出最终决策。
在后续论文中,LIME 的开发人员强调了模型不可知技术的重要性和挑战 [55],并提出了 LIME 的替代方案,能够通过“if-then”规则解释模型结果 [56],[ 57]。 这些技术为随后开发的 Anchors [25] 奠定了基础,Anchors 是一种基于随机扰动的技术,就像 LIME 一样,但完全关注所解释实例的邻域。 具体来说,它使用强化学习和图搜索来构造一个“锚点”,即分类与实例匹配的邻域区域; 该区域由每个特征的一系列值定义。 然后,这些范围被解释为 if-then 规则,如图 4E 所示。 由此产生的 if-then 规则不仅解释了所考虑的实例,还解释了落在锚点中的每个实例。 锚点的局限性包括变得过于具体的风险和获得潜在冲突的锚点的风险。
另一种与模型无关的结果解释技术是 LOCO(Leave One Covariate Out)[32],它通过重复运行模型来对实例特征进行评分,每次是时候忽略一项功能了。 在此过程结束时,将计算每个功能的绝对影响,并且得分最高的功能被视为对该实例最重要。 其他与模型无关的技术使用蒙特卡罗采样[33]、特征重要性排序[34]、遗传算法[31]以及与随机森林相结合的局部线性建模[30]。
接下来,我们解释一种完全不同的设计范式,它基于合作博弈论中一个重要的解决方案概念,称为 Shapley 值 [58]。 在解释基于 Shapley 值的 XAI 技术之前,我们首先解释一下它是如何计算的。 通常,联盟博弈由一组玩家和一个特征函数组成,该函数指定每个可能联盟(即玩家的子集)的