连续动作强化学习中的反事实探索:揭示 AI 决策背后的可能性
为什么 RL 需要反事实推理?
在具有高风险和长期影响的场景中,反事实推理的价值尤为显著。以 1 型糖尿病患者的血糖控制为例:强化学习(RL)智能体根据生理信号定期决定胰岛素剂量。原始轨迹()显示患者血糖先升至危险范围后回落,获得中等奖励。下方三个反事实替代方案(、和)展示了略微调整胰岛素剂量后的可能结果:其中和获得更高累积奖励,而表现更差。特别值得注意的是,在满足"血糖低于阈值时固定剂量"的临床约束前提下,通过最小幅度调整实现了最佳结果。
最小偏差的反事实策略
该方法将反事实解释构建为优化问题,寻找既能提升性能又贴近原始动作序列的替代轨迹。关键技术包括:
采用定制化的连续动作序列距离度量
基于 TD3 算法改进的奖励塑造机制(惩罚大幅偏差)
构建增强型 MDP 处理约束条件(如关键生理状态下的固定策略)最终生成的是确定性策略,能从给定初始状态产生可解释的替代方案。
应用案例
糖尿病控制:
使用 FDA 认证的 UVA/PADOVA 模拟器
实时调整胰岛素剂量以维持安全血糖范围
反事实轨迹显示微小策略一致性调整可改善结果
月球着陆器:
标准 RL 基准环境
通过主/侧引擎推力调节实现平稳着陆
反事实解释揭示控制微调如何提升稳定性或能效
在两项任务中,该方法在 50-80%测试案例中发现了奖励更高的正反事实轨迹,且策略在单/多环境条件下均展现泛化能力。
局限与启示
当前框架依赖稀疏的轨迹级奖励信号,可能在长周期或精细控制场景中受限。但其为可解释 RL 提供了新思路——通过结构化、策略感知的方式,在医疗、金融等关键领域揭示"如果采取不同决策会怎样"的可能性。
延伸阅读:
完整论文:《Counterfactual Explanations for Continuous Action Reinforcement Learning》
GitHub 实现代码更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码
- 办公AI智能小助手
评论