可解释人工智能 (XAI):1 简介
解锁黑盒:可解释人工智能 (XAI) 简介
随着人工智能越来越多地应用于医疗、金融等高风险决策领域,确保这些系统的透明度变得至关重要。本文基于课程介绍,带您深入了解可解释人工智能(XAI)的基础知识。
1. 简介 (Introduction)
什么是 XAI? (What is XAI?) 可解释人工智能(XAI)是人工智能的一个子领域,旨在为AI算法提供人类监督,从而增强信任和可靠性。我们需要区分两类算法:
-
白盒算法 (White-box): 我们能自然地理解其内部逻辑。
-
黑盒算法 (Black-box): 由于过度复杂,其内部逻辑大多是未知的。 随着 GDPR 和欧盟人工智能法案(EU AI Act)等法规的出台,“解释权”已成为高风险 AI 系统透明度的基础。
解释“聪明的汉斯”效应 (Explain Clever Hans effect)
XAI 的一个关键作用是检测“聪明的汉斯效应”。这是指模型学习了“随机捷径”(Stochastic shortcuts)——即那些存在于训练数据中,但与实际任务无关的特征。
-
案例: 一个用来预测肺炎的卷积神经网络(CNN)可能学会了识别放射科医生放在患者身上的金属标记,而不是病理特征。
-
虽然模型在这些数据上表现良好,但它实际上是基于错误的偏差在做决定,这可能导致灾难性的错误。
数据偏差与 XAI 的帮助 (Data bias and XAI can help) 模型可能会从数据中继承隐藏的偏差(例如代理变量)。虽然 XAI 不是能提供确切信息的“神谕”(oracle),但它可以帮助发现偏差并辅助去偏过程。不过,构建具有代表性的数据集,并将测试集与训练集完全独立,仍然是避免这些问题的根本方法。
2. XAI 简史 (A Quick Historical Approach on XAI)
历史背景
XAI 并不是一门新学科。在早期的“AI 春天”,如基于规则的符号 AI(50-70年代)和专家系统(80年代)时期,透明度一直是一个关注点。
解释线性回归 (Explaining linear regression) 推断性机器学习通常使用线性回归,因为其预测动态是完全可以理解的。
-
在一个简单的线性模型中,我们可以清楚地解释某个特征(如汽车重量)的变化如何影响预测结果(如油耗)。
-
然而,线性回归只有在简单时才是“白盒”模型。一旦增加更多特征、非线性或交互作用,模型的复杂性就会增加,解释难度也随之上升。
3. XAI 分类学 (The Taxonomy of XAI)
为了理解 XAI 工具,我们需要区分几个核心概念:
可解释性与事后解释性 (Interpretability vs Explainability)
-
可解释性 (Interpretability): 是模型本身的固有属性,指人类对其内部动态的理解程度。通常存在一个权衡:越复杂、越灵活的模型(如神经网络),其精度越高,但可解释性越低。
-
事后解释性 (Explainability): 指通过特定技术使黑盒模型的某些方面变得更易于理解。这些解释通常是在训练和预测之后生成的近似值。
范围:全局与局部 (Scope: global vs. local)
-
全局 (Global): 解释适用于整个模型,无论具体数据点如何(例如线性回归中的系数规则)。
-
局部 (Local): 解释仅针对特定数据点或其邻域有效(例如,某张图片被归类为“猫”是因为特定的像素区域)。
特异性:模型无关与模型特定 (Specificity: model-agnostic vs model-specific)
-
模型无关 (Model-agnostic): 适用于所有机器学习模型的技术(如 SHAP, LIME)。
-
模型特定 (Model-specific): 仅适用于特定类别模型(如神经网络)的技术(如 Grad-CAM, DeepLift)。
4. XAI 主要方法 (The Main Methods of XAI)
特征重要性 (Feature importance) 这是目前最常用的 XAI 工具。它对输入特征进行排名,给出每个特征相对于其他特征的重要性分数。这些可以通过表格、条形图或叠加在图像上的热力图(显著性图)来展示。
特征重要性与特征交互 (Feature importance vs. feature interaction) 简单的特征重要性有一个巨大局限:它通常忽略了特征交互。如果两个或更多特征作为一个“联盟”共同发挥作用,单独评估它们的重要性可能会产生误导。虽然计算复杂,但一些工具(如 Shapley Interactions)试图解决这一问题。
基于实例的解释 (Examples-based explanations) 这类方法使用样本来解释现象,通常分为以下几种:
-
反事实 (Counterfactuals): 展示对样本进行哪些最小的更改可以改变预测结果(例如,“如果你年轻30岁…贷款就会获批”)。这种对比性解释更符合人类的推理方式,因此更容易让外行理解。
-
半事实 (Semi-factuals) 与 替代事实 (Alterfactuals): 探索在不改变预测结果的情况下,数据可以发生多大变化。
特征可视化 (Feature visualization) 早期的神经网络研究通过数据优化来展示网络学到了什么(如纹理、图案或物体部分)。虽然这有助于探索,但往往噪音较大,不能提供真正的规则解释。
5. XAI 可能无法提供帮助的地方 (Where XAI will probably not help you)
从模型获得保证 (Obtaining guarantees from models) 必须明确的是,XAI 不是用于从模型获得(形式化)保证的工具。如果需要对模型的功能有经证实的保证,必须使用本质上透明的模型,而不是带有 XAI 的黑盒模型。XAI 主要是作为一种调试工具,帮助人类更好地理解和监督模型。
总结 (Recap)
XAI 是一门通过提供人类可理解的信息来辅助监督 AI 模型的学科。无论是通过特征重要性排序、生成反事实实例,还是概念可视化,XAI 工具都为我们提供了洞察复杂模型的窗口。然而,这些工具也存在噪音和缺陷,其生成的解释本身也需要评估。
Enjoy Reading This Article?
Here are some more articles you might like to read next: