状态同步问题:当AI智能体的世界模型与现实产生偏差
智能体基于它所知道的内容行动。它所知道的,始终是一个模型——一种从观察到的输入中派生出来的对世界的结构化表示。这个模型有一个时间戳,即便是隐性的。从模型形成的那一刻到智能体实际采取行动之间,世界可能已经发生了变化。如果智能体无法判断其模型是否仍然有效,就无法判断其行动是否仍然安全。
这就是状态同步问题:智能体的内部世界表示与世界当前实际状态之间的差距。这不是一个缺陷,而是任何通过离散输入观察世界并在稍后采取行动的智能体所固有的结构性属性。
为何新鲜度是一种安全属性
工程师通常将状态新鲜度视为性能问题。缓存过时浪费一次调用;传感器读数过期延迟响应。这种框架是效率层面的,而非安全层面的。
在针对不可逆决策运行的智能体系统中,这种框架是错误的。一个基于十分钟前的世界读数来执行给药、启动安全吊销或发出物理执行器命令的智能体,执行的不是一个缓慢的操作,而是一个针对已不复存在的世界状态被授权的操作。授权在授予时是有效的;操作对于授权所假设的状态是有效的。如果该状态已经改变,操作便不再有效——但智能体没有任何机制来感知这一点。
后量子密码学在特定领域中使这一问题变得具体。在有效密钥下签名的凭证必须在使用时重新验证,而非因为其签发时有效就被信任。如果签名密钥自签发以来已被吊销,基于缓存有效性断言采取行动的智能体,是在依据一个已经不再为真的事实状态行动。吊销事件是世界状态的变化;智能体的缓存信任是过期模型。
物理世界照护:最难的实例
状态同步问题在物理世界照护部署中最为突出。患者的状况变化可以快于任何监控系统的轮询间隔。一个在T₀时刻最后收到状态更新、在T₁时刻采取行动的智能体,是基于T₀时刻患者状态的模型采取行动。如果患者状况在T₀.₅时刻发生了变化,智能体的模型是错误的,行动可能造成伤害。
这不是假设性的边缘情形,而是任何具备实际规模的照护AI部署的正常运行条件。能够以全分辨率主动监控的患者数量受基础设施限制,而需要照护的患者数量则不受此限制。每个照护AI系统都在状态同步部分缺失的状态下运行,且过期程度是可变的、对智能体而言并非完全可知的。
设计含义是:状态新鲜度必须被明确声明和强制执行,而不是被假定。对于将要针对照护相关状态采取行动的智能体,应要求新鲜度证明——来自监控系统的签名断言,证明其即将据以行动的状态在定义时间窗口内有效。如果证明缺失或已过期,操作应被阻止,直到完成重新观察。这不是性能优化,而是安全门控。
级联与流水线问题
在多智能体流水线中,状态同步问题会复合叠加。协调智能体的世界模型部分来自子智能体的输出,而这些子智能体是在更早的时刻根据其收到的输入形成输出的。协调智能体的模型至少与其流水线中最过期的输入一样陈旧——通常情况下它无法知道哪个输入是最过期的。
在不传递时间戳的情况下传输状态的流水线,会产生一个模型年龄未知、行动相关性未知的行动者。当下游智能体基于过期的上游状态造成伤害时,因果链包含了同步差距——但这一差距在任何单个智能体的日志中都是不可见的。
设计应对
将状态新鲜度视为信任原语,意味着为智能体将用于授权不可逆操作的每个状态断言附加时间戳和新鲜度边界。新鲜度边界是由定义智能体范围的权威机构在部署时做出的决策:鉴于该智能体可采取行动的风险级别,其所据以行动的世界状态可以有多旧?该边界应在操作点被签名、证明和强制执行,而非从数据流水线的速度中假定。
对于照护AI,这意味着在临床操作前设置新鲜度门控。对于后量子系统,这意味着在操作时而非签发时进行吊销检查。对于硬件智能体,这意味着在执行器命令前设置传感器验证窗口。
洞察很简单,却经常被忽视:一个自信地基于过期世界采取行动的智能体,不是一个运行良好的智能体。它是一个不知道自己在无中生有的智能体。