Local Model-Agnostic Methods

Local：解释单个样本的预测
Model-agnostic：不依赖模型内部结构

1. LIME（Local Interpretable Model-agnostic Explanations）

目标

解释单个样本的预测结果

核心思想

在样本附近生成扰动点
用黑盒模型打标签
训练一个可解释的局部替代模型

流程

在实例 x 附近生成扰动样本
用黑盒模型对扰动样本预测
根据与 x 的距离进行加权
训练局部线性模型作为解释

要点

不考虑数据分布
不考虑特征相关性
不关心决策边界位置
只关心“靠近当前样本”

输出

局部线性模型系数（feature relevance）

2. LEMON

动机

LIME 在高维空间中 fidelity 低
随机采样难以靠近真实邻域

改进点

从数据分布中采样
在实例附近的 n-ball 内采样

要点

考虑数据分布
更高 fidelity
仍是局部 surrogate 方法
uses correlations or covariances among the features to generate a neighborhood

3. ORANGE

动机

LIME / LEMON 忽略：
- 可行性（heterogeneous features）
- 决策边界位置

核心思想

先找到最近的可行反事实点
围绕该点构造局部邻域
更贴近真实决策边界

流程

找到最近的可行 counterfactual 点 p*
基于特征相关性生成邻域
根据与 opposite-label 点的距离进行加权
训练局部 surrogate 模型

要点

显式考虑决策边界
考虑特征可行性
比 LIME / LEMON 更稳定

4. Anchors（Scoped Rules）

目标

用 IF–THEN 规则解释单个预测

定义

Anchor 是一条规则，使得：
- 只要规则条件满足
- 模型预测基本不变

指标

Coverage：规则覆盖的样本比例
Precision：覆盖样本中预测一致的比例

理想 Anchor

谓词数量少
Coverage 高
Precision 高
（Coverage 与 Precision 之间存在 trade-off）

5. SHAP

全称

SHapley Additive exPlanations

目标

为单个预测分配特征贡献值

核心思想

基于博弈论 Shapley value
计算特征在不同 coalition 中的平均边际贡献

性质

局部解释
可加性
理论保证（公平性）

对比 LIME

LIME：局部线性近似
SHAP：博弈论分摊贡献

Counterfactual Explanations

6. Counterfactual Explanation

定义

能改变模型预测结果的最小特征修改
tries to find the feature that need to be changed so that you can observe a change in the predicted label

回答的问题

How can I change the prediction?

7. 好的 Counterfactual 应满足

Validity：预测翻转
Proximity：变化小
Sparsity：改动特征少
Actionability：可执行
Causality：符合因果关系
Diversity：多种方案

8. Counterfactual 方法分类

Instance-based

从真实数据中寻找反例
例：Nearest Unlike Neighbor (NUN)

问题

多样性差
可能不可执行

Optimization-based

Wachter et al.

通过优化目标函数寻找 CF
权衡预测翻转与距离

特点

可能不可行动
可能缺乏多样性

Ustun et al.（Recourse）

显式建模可行动作集合
判断是否存在 recourse

DiCE（Diverse Counterfactual Explanations）

核心贡献

生成多个多样化的 counterfactual

方法

使用 Determinantal Point Process (DPP)
鼓励 CF 之间不相似

Heuristic Search

Growing Spheres

动机

L0 稀疏性不可微，难以优化

两阶段

Generation
- 扩大半径寻找最近的反例
Feature Selection
- 逐个撤销不必要的特征变化

Feature selection 目的

提高 sparsity（减少修改特征数）

Conformal Prediction

9. Conformal Prediction

目标

为预测提供不确定性保证

输出

分类：Prediction set
回归：Prediction interval

保证

真值落在集合 / 区间中的概率 ≥ 1 − ε

前提

Exchangeability（同分布、顺序无关）

10. Calibration Set 的作用

测量模型预测的非典型程度
判断新预测有多“异常”

11. Non-conformity Score

含义

模型对某个样本预测有多“不确定 / 奇怪”

分类

𝛼 = 1 − model confidence

回归

𝛼 = |y − ŷ|

12. 总结

LIME：局部 surrogate（不考虑分布）
LEMON：分布感知的 surrogate
ORANGE：边界感知的 surrogate
Anchors：局部规则解释
SHAP：博弈论特征贡献
Counterfactual：如何改变预测
DiCE：多样化 CF
Growing Spheres：启发式稀疏 CF
Conformal Prediction：不确定性保证

Optimization for Explainable AI

8. Why Optimization in XAI

核心原因

反事实解释本质是一个受约束的搜索 / 优化问题

对应关系

决策变量：特征如何改变
目标函数：与原样本距离最小
约束条件：
- 预测必须翻转
- 特征必须可行（binary / ordinal / continuous）
- 满足现实或业务规则

9. Optimization Problem Formulation

一般形式

Minimize / Maximize：Objective function
Subject to：Constraints

在反事实中的含义

最小化特征改动
同时保证预测翻转与可行性

10. Integer & Mixed-Integer Optimization

动机

现实特征空间是异质的：
- Binary
- Ordinal
- Continuous

结论

反事实问题通常需要：
- Integer Optimization
- Mixed-Integer Linear Optimization (MILO)

11. Branch and Bound（直觉）

用途

解决整数 / 混合整数优化问题

思想

先放松整数约束（连续解）
若解不可行：
- 分支（branch）
- 剪枝（bound）

Local Model-Agnostic Methods III (Counterfactuals)

12. Limitations of Earlier CF Methods

Growing Spheres / Wachter / DiCE 的问题

不保证最优
可能不可行
生成的反事实缺乏“依据”

13. Justification（反事实的合理性）

定义

一个反事实点如果能通过一条不跨类别边界的路径
连接到某个真实的训练反例
则该反事实是 justified

术语

Justifier：用于证明合理性的真实反例

14. JUICE（Justified Counterfactual Explanations）

目标

生成具有 justification 的反事实解释

核心思想

从最近的真实反例出发
沿着可行路径向原样本靠近
保证反事实点“站在真实数据上”

性质

保证 justification
启发式方法
不保证全局最优

15. iJUICE（Integer JUICE）

动机

JUICE 不保证最优
难以处理整数 / 离散特征

核心思想

将反事实生成建模为整数优化问题
将 justification 作为硬约束

特点

显式建模可行性
保证 justification
在所有可行解中寻找最近反事实

16. MACE（Model-Agnostic Counterfactual Explanations）

方法类型

基于 SMT（Satisfiability Modulo Theories）

核心思想

不直接优化连续目标
在满足逻辑与数值约束的空间中寻找可行反事实

特点

强约束表达能力
可处理复杂规则
通过搜索判断可行性

Counterfactual Methods Summary

方法	核心思想
Growing Spheres	启发式搜索最近反例
JUICE	基于路径的 justified 反事实
iJUICE	基于整数优化的 justified 反事实
MACE	基于 SMT 的约束求解

Lecture 7–8 总结

反事实解释 = 优化问题
Justification 保证反事实合理性
JUICE 引入 justification
iJUICE 用优化保证最优与可行
MACE 用 SMT 处理复杂约束