陈旧世界模型问题:当智能体依据已改变的世界行动时的问责
每个AI智能体都携带着从其训练数据中衍生出的世界模型。该模型有一个时间戳。临床指南被修订,密码学标准被废弃,硬件规格通过固件更新而改变。问责框架尚未正视部署一个对现实的表征与现实本身相悖的智能体意味着什么——这种背离不是因为传感器漂移,而是因为世界改变了而智能体没有。
每个AI智能体都携带着从其训练数据中衍生出的世界模型。该模型有一个时间戳记——数据收集结束的那一刻。然而,世界并不会在那个时间戳记处停止变化。临床指南被修订,密码学标准被废弃,硬件规格通过固件更新而改变,监管要求随之演变。今天部署的智能体,可能是基于一个已不再存在的世界进行训练的。
这就是陈旧世界模型问题:当智能体对现实的表征与现实本身产生分歧时的问责——不是因为传感器漂移或对抗性干扰,而是因为世界已经改变,而智能体没有随之更新。
时间位移的结构
陈旧世界模型问题不同于校准漂移。校准漂移发生在从物理世界到智能体输入的管道退化时——传感器漂移,信号链积累误差。陈旧世界模型问题发生在该管道的上游:在智能体关于有效输入的外观、适当响应以及操作环境所需内容的训练信念中。
它也不同于分布外输入。分布外处理询问:这个输入是否与智能体被训练的内容相似?陈旧世界模型问题提出了不同的问题:即使这个输入看起来很熟悉,鉴于世界自训练以来的变化,智能体的响应是否仍然正确?
这些不是可以互换的问题。遭遇熟悉场景并能胜任地响应的智能体,仍然可能在使用陈旧模型。该响应在训练数据还是最新的时候可能是适当的,但今天可能已不再适当。智能体的置信度没有变化,但其正确性已经变化。问责结构却无法区分两者。
后量子交叉点:已废弃的假设
在后量子交叉点,陈旧世界模型问题采取了精确的形式。在特定密码套件被正式废弃之前训练的智能体,可能继续将该套件视为可接受的。智能体的行为没有改变;世界对该行为的评估已经改变。
密码学标准通过有记录的、审慎的过程演变——标准机构发布指导方针,供应商宣布时间表,合规框架更新。但智能体关于可接受密码学实践的训练假设已内置于其参数中。除非有明确的机制来更新这些假设——并证明更新已发生——否则智能体将继续将昨天的规则应用于今天的基础设施。
问责差距是具体的:可能没有记录说明智能体是基于哪些密码学假设训练的,这些假设最后一次针对当前标准进行验证是什么时候,或者部署是否继续反映最新指导。智能体按照其模型正确行事,其模型是错误的,这两个事实都没有出现在审计跟踪中。
硬件交叉点:智能体不知道的固件
在硬件交叉点,陈旧世界模型问题出现在设备能力建模中。与硬件设备交互的智能体——管理、配置或依据其输出采取行动——会建立关于这些设备的能力、接口和行为的假设。硬件通过固件更新而改变。智能体在训练时了解的设备可能不是它今天正在管理的设备。
这对安全相关的硬件功能尤其重要:安全飞地、证明模块、硬件安全密钥。如果固件更新改变了认证协议,拥有该协议陈旧模型的智能体可能接受设备在旧规则下认为有效的认证,但审计员会在当前规则下拒绝——或反之。智能体没有表现出异常,它的行为与一个不再准确描述其所管辖硬件的模型保持一致。
可追溯性问题更加复杂,因为固件更新历史和智能体训练日期可能由完全不同的团队按完全不同的节奏管理,没有正式机制将两者联系起来。硬件发生了变化,智能体对它的模型没有变化,没有人被指定负责弥合这一差距。
护理交叉点:比智能体更新更快的指南
在物理世界护理中,临床知识不是静态的。治疗方案根据新证据进行修订,药物剂量指导会改变,随着人口数据积累,风险分层标准会更新。基于十八个月前医学文献训练的智能体可能自信地应用临床共识此后已经修订的指导方针。
护理交叉点是这个问题后果最为尖锐的地方。提供建议、标记风险或提供临床决策信息的护理智能体隐含地声称符合当前最佳实践。该声明可能对模型的训练语料库是准确的。护理对象和护理团队可能无法知道他们所依赖的指导反映的是过去的临床知识状态,而非当前状态。
最容易受到这一差距影响的是那些独立验证临床指导能力最弱的人——往往是最先接受AI辅助护理的人群,也是在指导错误时损失最大的人。智能体对护理建议的自信声称具有分量。该建议在十八个月前有效而此后已被取代这一事实,在建议本身中并不可见。
问责要求
陈旧世界模型问题要求将知识来源视为一等问责工件。几个要求由此而来。
首先,智能体应该携带可验证的知识日期——不仅仅是训练截止时间戳,而是所整合的特定领域知识版本以及上次针对该领域当前标准进行验证的时间的证明。单一的训练日期掩盖了智能体实际了解的内容:同一模型中不同领域的知识可能在不同时间点是最新的。
其次,部署治理应包括一个陈旧阈值:知识验证和部署之间的最大时间间隔,根据相关领域的变化速率进行调整。密码学标准的变化速度快于护理协议,护理协议的变化速度快于某些监管框架。根据变化最慢的领域校准的阈值,将使快速变化的领域处于危险的暴露状态。阈值必须与领域的实际变化速度相匹配。
第三,陈旧模型决策的问责链必须明确。当智能体在陈旧世界模型上运行时,问题不仅仅是做出了什么决策,还有:谁负责证明模型是最新的,以及该责任是否在部署前得到履行和记录。
自信地依据过时模型行事的智能体不是智能体的失败,而是将模型发布到已改变的世界中却未证明其对该世界的知识时效性的部署治理的失败。在知识来源被视为与决策日志同等地位的问责工件之前,陈旧模型决策的问责记录将包含后果而省略原因。
每个AI智能体的世界模型都有时间戳;世界没有。依据已废弃的密码学假设、过时的固件能力模型或已被取代的临床指南行事的智能体,并非表现异常——它的行为完全符合训练。这种失败的问责框架不是更好的传感器管道或更宽的分布包络;而是将知识来源作为一等审计工件:可验证的领域知识日期、按领域校准的明确陈旧阈值,以及部署前证明时效性的具名问责链。