回滚问题:当 AI 智能体的行动无法撤销,该怎么办
大多数软件系统的架构建立在一个假设之上:错误可以被纠正。数据库有事务,版本控制有回退,部署流程有回滚管道。整个可靠软件工程的学科都建立在这样一个前提上:如果出了问题,可以撤销并重新尝试。这个前提如此根深蒂固,以至于很少被审视。但对于越来越多的 AI 智能体来说,这个前提是错误的。
当 AI 智能体安排药物给药、执行证券交易、向飞行中的无人机发出指令,或者调度紧急响应团队时——行动已经发生。没有事务可以回滚,没有指针可以恢复,没有原子单元可以中止。世界已经改变。药物已在患者体内。头寸已经开仓。无人机已经移动。团队已经出发。接下来的一切都必须从新状态推进,而非旧状态。这不是软件问题,而是物理问题。
回滚问题有三个不同层次,解决其中一个并不能解决其他两个。第一层是物理不可逆性:触及真实世界的行动——给药、移动、部署、物理访问——无法通过任何软件机制撤销。这一层要求在不可逆行动发生之前设置门控,而非事后记录。第二层是机构不可逆性:许多行动在物理上可逆,但在机构层面已固化。向监管机构发出的函件、向对手方记录的披露——这些可以物理修改,但原始行动已成为外部记录的一部分。对于这一层,设计要求是分阶段提交:智能体提案,记录以暂定状态创建,合格人员确认后才向外部系统传播。第三层是信任不可逆性:当智能体在人们依赖它的领域做出错误决定时,对信任关系的损害不会因纠正行动而自动修复。信任一旦受损,就有其自身的恢复曲线,任何软件回滚都无法触及。
使回滚问题在 AI 智能体中尤为紧迫的是:智能体具有的有用属性——自主行动、快速行动、同时跨多个会话行动——正是放大不可逆错误代价的属性。配置错误或在授权范围外运行的智能体,可能在任何人发现模式之前,在数百种情形中发出相同的错误行动。不可逆性乘以规模,是与单纯不可逆性不同的风险类别。
正确的架构应对是在部署前为每个可执行动作建立可逆性分类体系:可自由执行(智能体可无需门控行动)、分阶段提交(智能体提案,需人员确认后才向外部传播)、人工硬性审批(智能体提交请求,合格人员批准,行动执行,会话日志附带审批者身份)。还需配合轨迹监控机制,在累积模式越界前触发告警。问责不是事后标签,而是在部署前内置于行动分类体系中的架构属性。
AI 智能体在物理世界中的行动——给药、指令下达、紧急响应部署——一旦执行便无法撤销。回滚问题分为三个层次:物理不可逆性(需要事前硬性人工审批门控)、机构不可逆性(需要分阶段提交机制)、信任不可逆性(需要透明纠正通信)。当智能体在规模化部署中行动时,不可逆性的代价被放大数倍。正确的架构响应是在部署前为每个可执行动作建立可逆性分类体系——可自由执行、分阶段提交、人工硬性审批——并结合轨迹监控机制,在累计模式越界前触发告警。问责不是事后标签,而是在部署前内置于行动分类体系中的架构属性。