XAI.3 | Local Model-Agnostic Methods
0x00A0

Local Model-Agnostic Methods

Local:解释单个样本的预测
Model-agnostic:不依赖模型内部结构


1. LIME(Local Interpretable Model-agnostic Explanations)

目标

  • 解释单个样本的预测结果

核心思想

  • 在样本附近生成扰动点
  • 用黑盒模型打标签
  • 训练一个可解释的局部替代模型

流程

  1. 在实例 x 附近生成扰动样本
  2. 用黑盒模型对扰动样本预测
  3. 根据与 x 的距离进行加权
  4. 训练局部线性模型作为解释

要点

  • 不考虑数据分布
  • 不考虑特征相关性
  • 不关心决策边界位置
  • 只关心“靠近当前样本”

输出

  • 局部线性模型系数(feature relevance)

2. LEMON

动机

  • LIME 在高维空间中 fidelity 低
  • 随机采样难以靠近真实邻域

改进点

  • 数据分布中采样
  • 在实例附近的 n-ball 内采样

要点

  • 考虑数据分布
  • 更高 fidelity
  • 仍是局部 surrogate 方法
  • uses correlations or covariances among the features to generate a neighborhood

3. ORANGE

动机

  • LIME / LEMON 忽略:
    • 可行性(heterogeneous features)
    • 决策边界位置

核心思想

  • 先找到最近的可行反事实点
  • 围绕该点构造局部邻域
  • 更贴近真实决策边界

流程

  1. 找到最近的可行 counterfactual 点 p*
  2. 基于特征相关性生成邻域
  3. 根据与 opposite-label 点的距离进行加权
  4. 训练局部 surrogate 模型

要点

  • 显式考虑决策边界
  • 考虑特征可行性
  • 比 LIME / LEMON 更稳定

4. Anchors(Scoped Rules)

目标

  • 用 IF–THEN 规则解释单个预测

定义

  • Anchor 是一条规则,使得:
    • 只要规则条件满足
    • 模型预测基本不变

指标

  • Coverage:规则覆盖的样本比例
  • Precision:覆盖样本中预测一致的比例

理想 Anchor

  • 谓词数量少
  • Coverage 高
  • Precision 高
    (Coverage 与 Precision 之间存在 trade-off)

5. SHAP

全称

  • SHapley Additive exPlanations

目标

  • 为单个预测分配特征贡献值

核心思想

  • 基于博弈论 Shapley value
  • 计算特征在不同 coalition 中的平均边际贡献

性质

  • 局部解释
  • 可加性
  • 理论保证(公平性)

对比 LIME

  • LIME:局部线性近似
  • SHAP:博弈论分摊贡献

Counterfactual Explanations

6. Counterfactual Explanation

定义

  • 能改变模型预测结果的最小特征修改
  • tries to find the feature that need to be changed so that you can observe a change in the predicted label

回答的问题

  • How can I change the prediction?

7. 好的 Counterfactual 应满足

  • Validity:预测翻转
  • Proximity:变化小
  • Sparsity:改动特征少
  • Actionability:可执行
  • Causality:符合因果关系
  • Diversity:多种方案

8. Counterfactual 方法分类

Instance-based

  • 从真实数据中寻找反例
  • 例:Nearest Unlike Neighbor (NUN)

问题

  • 多样性差
  • 可能不可执行

Optimization-based

Wachter et al.

  • 通过优化目标函数寻找 CF
  • 权衡预测翻转与距离

特点

  • 可能不可行动
  • 可能缺乏多样性

Ustun et al.(Recourse)

  • 显式建模可行动作集合
  • 判断是否存在 recourse

DiCE(Diverse Counterfactual Explanations)

核心贡献

  • 生成多个多样化的 counterfactual

方法

  • 使用 Determinantal Point Process (DPP)
  • 鼓励 CF 之间不相似

Growing Spheres

动机

  • L0 稀疏性不可微,难以优化

两阶段

  1. Generation
    • 扩大半径寻找最近的反例
  2. Feature Selection
    • 逐个撤销不必要的特征变化

Feature selection 目的

  • 提高 sparsity(减少修改特征数)

Conformal Prediction

9. Conformal Prediction

目标

  • 为预测提供不确定性保证

输出

  • 分类:Prediction set
  • 回归:Prediction interval

保证

  • 真值落在集合 / 区间中的概率 ≥ 1 − ε

前提

  • Exchangeability(同分布、顺序无关)

10. Calibration Set 的作用

  • 测量模型预测的非典型程度
  • 判断新预测有多“异常”

11. Non-conformity Score

含义

  • 模型对某个样本预测有多“不确定 / 奇怪”

分类

  • 𝛼 = 1 − model confidence

回归

  • 𝛼 = |y − ŷ|

12. 总结

  • LIME:局部 surrogate(不考虑分布)
  • LEMON:分布感知的 surrogate
  • ORANGE:边界感知的 surrogate
  • Anchors:局部规则解释
  • SHAP:博弈论特征贡献
  • Counterfactual:如何改变预测
  • DiCE:多样化 CF
  • Growing Spheres:启发式稀疏 CF
  • Conformal Prediction:不确定性保证

Optimization for Explainable AI

8. Why Optimization in XAI

核心原因

  • 反事实解释本质是一个受约束的搜索 / 优化问题

对应关系

  • 决策变量:特征如何改变
  • 目标函数:与原样本距离最小
  • 约束条件:
    • 预测必须翻转
    • 特征必须可行(binary / ordinal / continuous)
    • 满足现实或业务规则

9. Optimization Problem Formulation

一般形式

  • Minimize / Maximize:Objective function
  • Subject to:Constraints

在反事实中的含义

  • 最小化特征改动
  • 同时保证预测翻转与可行性

10. Integer & Mixed-Integer Optimization

动机

  • 现实特征空间是异质的:
    • Binary
    • Ordinal
    • Continuous

结论

  • 反事实问题通常需要:
    • Integer Optimization
    • Mixed-Integer Linear Optimization (MILO)

11. Branch and Bound(直觉)

用途

  • 解决整数 / 混合整数优化问题

思想

  • 先放松整数约束(连续解)
  • 若解不可行:
    • 分支(branch)
    • 剪枝(bound)

Local Model-Agnostic Methods III (Counterfactuals)

12. Limitations of Earlier CF Methods

Growing Spheres / Wachter / DiCE 的问题

  • 不保证最优
  • 可能不可行
  • 生成的反事实缺乏“依据”

13. Justification(反事实的合理性)

定义

  • 一个反事实点如果能通过一条不跨类别边界的路径
  • 连接到某个真实的训练反例
  • 则该反事实是 justified

术语

  • Justifier:用于证明合理性的真实反例

14. JUICE(Justified Counterfactual Explanations)

目标

  • 生成具有 justification 的反事实解释

核心思想

  • 从最近的真实反例出发
  • 沿着可行路径向原样本靠近
  • 保证反事实点“站在真实数据上”

性质

  • 保证 justification
  • 启发式方法
  • 不保证全局最优

15. iJUICE(Integer JUICE)

动机

  • JUICE 不保证最优
  • 难以处理整数 / 离散特征

核心思想

  • 将反事实生成建模为整数优化问题
  • 将 justification 作为硬约束

特点

  • 显式建模可行性
  • 保证 justification
  • 在所有可行解中寻找最近反事实

16. MACE(Model-Agnostic Counterfactual Explanations)

方法类型

  • 基于 SMT(Satisfiability Modulo Theories)

核心思想

  • 不直接优化连续目标
  • 在满足逻辑与数值约束的空间中寻找可行反事实

特点

  • 强约束表达能力
  • 可处理复杂规则
  • 通过搜索判断可行性

Counterfactual Methods Summary

方法核心思想
Growing Spheres启发式搜索最近反例
JUICE基于路径的 justified 反事实
iJUICE基于整数优化的 justified 反事实
MACE基于 SMT 的约束求解

Lecture 7–8 总结

  • 反事实解释 = 优化问题
  • Justification 保证反事实合理性
  • JUICE 引入 justification
  • iJUICE 用优化保证最优与可行
  • MACE 用 SMT 处理复杂约束
 BUY ME A CUPPA!
Powered by Hexo & Theme Keep
This site is deployed on
Unique Visitor Page View