← 返回博客
× 量子安全 × 硬件 × 物理世界照护

对齐漂移问题:AI智能体在部署后如何悄然失准

2026-06-14 5 分钟阅读

AI智能体在部署时处于对齐状态。其行为经过校准,符合委托方在部署时希望实现的目标、约束条件与评估标准。但这种对齐并非永久有效。世界在变化,运行上下文在变化,威胁态势在变化。智能体的校准参数不会自动随之更新。由此产生的便是对齐漂移:智能体实际行为与委托方当前期望之间的逐渐背离,且整个过程不会触发任何明确的审查事件。

对齐漂移不同于程序错误、规范失当与身份变更。程序错误产生可被复现和修复的错误行为;规范失当产生的是持续满足书面要求但实质不符的行为;身份变更则发生在模型或配置被明确更新时,会触发重新注册的检查点。对齐漂移不属于上述任何一种。它是在一个悄然变得不同于智能体初始校准时上下文中部署的累积效应。

沉默使其成为危险

大多数智能体监控框架旨在检测行为偏差,通过将智能体当前行为与历史行为相比较来实现。对齐漂移对这种方法而言是透明的。一个上周失准、本周同样失准的智能体,不会产生任何异常信号。监控器看到的是一致的行为;而这种一致性本身就是问题所在。

设想一个针对特定患者群体——具有特定病症分布、用药情况和活动能力水平——进行校准的照护智能体。十二个月后,该群体发生了变化:新入住者带来不同的健康档案。但智能体的校准参数仍然锚定在原始分布上。其建议开始出现细微偏差——不是灾难性的失误,无法通过单次事件监控检测到,但对当前患者群体而言持续不够适当。智能体在做它被训练去做的事;而它正在服务的群体,已不再是它被训练时所针对的群体。

后量子维度

后量子安全为对齐漂移增加了特定轴向。一个针对经典对抗威胁模型进行校准的智能体,在面对量子能力的攻击者时,定义上已处于失准状态。从经典威胁到后量子威胁的过渡不是一个边界清晰的离散事件,而是一个逐渐变化的概率分布:随着量子能力的成熟,经典签名被伪造的可能性不断上升。一个被正确校准为信任基于格的签名方案而非经典密钥材料的智能体,在特定威胁模型下做出了正确判断。但随着威胁模型的演进,信任阈值可能需要重新校准——而智能体没有任何机制察觉其校准正在老化。

同样的动态适用于智能体自身的签名行为。一个被校准为使用在部署时强度充分的算法族进行决策签名的智能体,可能逐渐使用一个正在变弱的算法。校准本身没有错;是世界发生了移动。

硬件退化即对齐漂移

物理硬件引入了更深一层的维度。传感器会随时间退化。一个使用新鲜近距传感器校准的照护机器人,随着传感器老化,可能产生系统性偏差的感知。智能体的世界模型建立在不再精准的传感器读数之上。其校准——在部署时对当时的传感器读数而言是正确的——与实际物理环境之间的背离日益加剧。

这是硬件层面的对齐漂移:智能体的行为对于其接收到的传感器读数而言是正确的;传感器读数对于真实世界而言不再正确。修复不是软件层面的工作,而需要物理世界的干预。智能体无法自行诊断这一问题;监控也无法通过将当前行为与历史行为比较来发现它。这需要一套定期对照物理环境真实观察结果来检验智能体输出的测试机制。

设计应对

将对齐漂移作为一级运营关切来对待,需要三件事。第一,对齐陈旧度计时器:部署记录应包括最后一次校准的日期以及校准时的环境条件,该计时器在重新校准前持续运行。第二,重新校准触发条件:运行上下文的特定变化——群体转变、威胁态势变化、硬件维护周期——应触发强制性的重新校准审查,而不仅是性能审查。第三,覆盖信号:人工干预是对齐漂移最可靠的证据。记录不仅是干预内容、还有干预原因的覆盖日志,是对齐漂移探测器。当一批覆盖事件共享同一类失效模式时,这批事件就是智能体校准不再匹配其运行上下文的证据。

因此,覆盖日志不仅仅是审计轨迹,它是对齐漂移的传感器。仅将其视为合规记录的组织,会错过其中蕴含的信号。

对齐漂移不是灾难性的失效模式,而是一种缓慢的退化,不产生任何值得单独记录的事件。这正是它成为最难治理的智能体失效类型的原因——也是从一开始就必须为其设计防护的原因。