← 返回博客
× 量子安全 · × 硬件 · × 物理世界照护

终止问题:何时以及如何停止AI智能体,以及无法停止意味着什么

2026-06-14 5 分钟阅读

当AI智能体出现意外行为时,人们首先想到的安全措施是终止开关。听起来很简单:发送停止信号,智能体停止,情况得以控制。然而在实践中,终止问题是智能体架构中最难解决的问题之一——不是因为停止在技术上复杂,而是因为停止安全、经过认证且有意义的条件,远比表面看起来更为有限。

终止开关的幻觉

终止开关不是架构,它是架构之上的一个按钮,而该架构在任何给定时刻可能支持也可能不支持安全停止。一个正处于事务中间、文件写入中间、消息发送中间或物理执行中间的智能体,并不总能干净地停止。问题不在于是否能切断进程的电源——通常可以——而在于这样做是否让世界处于比让进程完成更好的状态。对许多智能体工作流,尤其是那些已经开始与外部系统交互的工作流,答案是模糊的。

这种模糊性是结构性的。智能体系统被设计为执行一系列动作,每个步骤都依赖于先前的状态。在中途打断该序列不会恢复先前状态——它会创造出一个既不在原始委托人计划之内、也不在智能体计划之内的新状态。一个不考虑智能体在工作流中何处可以安全停止的终止架构,实际上不是一个安全控制措施。它是将责任从智能体转移到按下按钮的操作员的一种方式。

嵌入式智能体与物理停止问题

对于嵌入在物理世界运行的硬件中的智能体,终止问题最为棘手。在云环境中运行的软件智能体可以通过进程信号停止,并从已知检查点重启。而在嵌入式设备中运行的智能体——照护设施中的康复单元、临床环境中的监测系统——在你需要停止它时可能物理上不可达。

网络分区、电源事件和设备故障都可能切断远程停止信号到达的连接。无法接收停止命令的设备会继续执行。如果其指令授权它在连接中断期间自主行动——这是保证照护连续性的必要设计选择——它将在不知晓委托人已尝试撤销该授权的情况下这样做。

硬件根认证告诉你设备上运行的智能体是你授权的那个。它无法解决可达性问题。一个凭证有效但网络连接已断开的设备,从委托人的角度来看,是一个在没有监督的情况下运行的智能体——可能正在执行已经被撤销的决策。设备上的问责记录可能完整,但智能体在世界中的行动已经在展开。

长期运行的工作流:停止作为危险行为

在照护环境中,当停止信号到达时,正处于任务中间的智能体呈现出一个特殊困境。智能体可能正处于监测序列、警报升级或有记录的干预中间。立即停止满足了终止命令的字面意义,同时可能造成委托人试图预防的实际伤害——一个没有主动监测的患者,一个已经启动但未完成的升级,一个在中断点之前准确、之后沉默的照护记录。

这是照护领域终止的深层张力:无法停止的智能体是危险的,但随时可以停止的智能体——在监测中间、在升级中间——也是危险的。一个设计良好的终止架构必须不仅包括停止机制,还要包括每个工作流中一组定义好的安全停止点,以及在收到停止信号时将智能体带到最近安全点再停止的关闭程序。没有安全点协议的任务中途终止,相当于切断手术室的电源——技术上可行,永远不应这样做。

终止信号的认证问题

终止信号是一条指令。与发送给在对抗性环境中运行的智能体的任何指令一样,它必须经过认证。能够伪造可信停止命令的攻击者,可以在智能体执行合法安全功能时将其静默——撤销凭证、记录检测到的异常、升级警报。从攻击者的角度来看,终止智能体的能力也是在入侵时刻使检测系统失明的能力。

这造成了一种令人不安的对称性。停止信号需要足够容易发出,以便合法委托人能在紧急情况下迅速行动。它们需要足够难以伪造,以便攻击者无法压制智能体的问责功能。这两个要求相互对立,满足其中一个的机制往往会削弱另一个。签署停止命令的硬件根密钥将终止权限与特定设备和密钥绑定——但密钥管理随后成为每次部署的运营开销的一部分。

后量子停止信号

后量子过渡为终止认证问题增加了一个常被忽视的层面。今天的认证停止信号通常依赖经典非对称密码学。能力足够强大的量子对手可以伪造这些签名——不是实时,而是可能在未来使用之前捕获的流量。对于运营生命周期较长的智能体,今天发出的经认证的停止信号可能在未来数年内可验证,然后在量子能力阈值被突破时变得可伪造。

对于照护环境中的嵌入式设备——可能在没有固件替换的情况下运行五到十年的设备——这不是一个假设的远景。今天制造的带有经典认证停止信号的设备,可能在支撑这些信号的密码学假设被打破后仍在运行。在制造时将终止权限与抗后量子密钥材料绑定,是在设备整个运营生命周期内保持停止信号可信的唯一机制。

终止架构需要什么

一个严肃的终止架构在任何智能体部署之前必须具备四个组件。第一,工作流级的安全停止点映射:每个工作流中的明确标记,在这些点智能体可以停止而不使下游系统处于不一致状态。第二,每个工作流的关闭协议:在收到停止信号时,将智能体带到最近的安全停止点,而不是立即停止。第三,使用适合设备部署生命周期的密钥材料的认证停止信号机制——并且对具有未来能力的对手的伪造具有抵抗性。第四,离线继续策略,精确规定智能体在委托人不可达时可以和不可以做什么,以便网络分区不会造成不受约束运行的窗口。

这些组件都不是终止开关。终止开关作为最后手段仍然存在——物理断电、进程强制终止、硬件重置。但既是最后手段又是第一手段的手段不是安全控制。它们是承认架构从未被设计为优雅停止。在智能体决策实时影响真实人的领域,优雅停止不是边缘情况。它是必须在第一次部署之前内置的设计要求,而不是在第一次事故之后附加的。

摘要

终止信号看似是最简单的安全保障,实则是智能体架构中最难解决的问题之一。嵌入在照护设施或临床环境硬件中的智能体,在你需要停止它时可能因网络中断而无法被触达。处于多步骤工作流中间的智能体,即时停止可能比让其完成更危险。终止信号本身也是一条指令,需要经过认证——能伪造停止命令的攻击者可以在智能体执行合法安全功能时将其静默。后量子过渡则增加了一层:今天的认证停止信号依赖经典密码学,而长期运行的设备可能在这些假设被突破后仍在运行。严肃的终止架构需要四个要素:工作流级的安全停止点映射、将智能体引导至最近安全点的关闭协议、适用于设备生命周期的认证停止信号机制,以及指定离线时智能体权限的离线继续策略。