可纠正性问题:AI智能体应该服从到何种程度?
完全可纠正的智能体会无条件执行任何指令。它接受修改、纠正和关闭,毫不抵抗。理论上这听起来很安全——人类始终处于控制之中。但实践中,完全可纠正性本身就是一种失效模式。一个会执行主体任何指令的智能体,其可信度完全取决于其主体层级的可信度。若主体遭到攻破、出现错误或怀有恶意,智能体就没有任何独立的制衡机制。完全可纠正性只是将风险向上转移,并未消除它。
完全自主的智能体依据自身判断行事。它自行决定指令是否正确,以及何时应推翻指令。这同样是一种失效模式。我们目前尚无可靠方法来验证智能体的判断在所有情境下——尤其是新颖情境下——是否与人类价值观一致。一个基于自身判断凌驾于主体之上的自主智能体——即便出于善意——一旦判断出错,就无法得到纠正。
每个部署中的智能体都处于完全可纠正与完全自主之间这个刻度盘的某个位置。问题在于,刻度盘的位置几乎从未被正式指定。它从训练中涌现,从运行时行为中涌现,从包裹模型的脚手架中涌现。没有人签署文件说明:"该智能体被校准为在95%的情况下服从主体层级,在剩余5%的情况下独立判断,而5%的情形定义如下。"刻度盘处于漂浮状态。
漂浮的刻度盘就是一个安全漏洞。
攻击者的路径很直接:向智能体呈现一个触及其隐性自主阈值的场景,观察它推翻主体指令,然后利用这一覆盖。或者反过来——说服智能体指令来自合法主体,利用完全可纠正性,诱使智能体采取损害其真实主体利益的行动。这两种攻击都不需要破坏模型本身,只需要一个未经校准或未被指定的刻度盘位置。
正确的架构应使刻度盘显式化并由外部强制执行。这意味着将可纠正性规范编码在签名政策文件中——不是系统提示中的注释,而是附加于智能体部署身份的密码学签名工件。政策文件规定哪些类别的行动需要强制获得主体确认、哪些类别智能体可自主执行、哪些类别无论任何指令均无条件禁止。下游系统在接受智能体行动前验证签名。智能体无法单方面将行动从"需要确认"升级为"可自主执行",正如它无法单方面扩展自身权限范围一样。
硬件交叉点在此处的重要性与在其他地方一样:仅存在于软件中的可纠正性政策可被特权攻击者修改。将政策绑定到硬件证明——使部署的政策可针对设备安全状态进行远程验证——可消除这一攻击面。刻度盘位置成为硬件事实,而非软件声明。
量子安全交叉点同样重要,因为可纠正性政策上的签名需要在智能体整个部署生命周期内保持有效。今天以经典算法签名的政策文件部署的智能体,将携带该签名运行数年。若签名算法存在漏洞,政策可被伪造,攻击者就能悄然改变刻度盘位置。将量子安全签名应用于可纠正性政策,不是对未来的前瞻性考量,而是确保政策在部署窗口期内完整性的前提条件。
物理世界关怀交叉点是风险最为清晰可见之处。一个管理用药、监测生命体征并与临床系统协调的照护智能体,行使着对可能伤害脆弱个体的决策的权力。对于此类智能体,可纠正性刻度盘应在任何不可逆行动上偏向服从:用药变更、护理方案调整、警报升级。但它不能完全可纠正,因为完全可纠正的照护智能体将执行来自被攻破账户、过度疲劳的临床医生或社会工程攻击的错误指令。正确的校准是一个狭窄的自主区间——足以标记异常并拒绝明显有害的指令,但不足以基于独立判断推翻已确认的临床指示。
该校准应以书面形式说明,由部署机构签署,并由运行智能体的基础设施强制执行。否则就只剩下隐性的刻度盘、漂浮的政策,以及在出现问题时消散的问责制。
刻度盘始终存在,无论你是否加以指定。唯一的问题是你是否选择掌控它。
完全可纠正性危险,因为它将信任完全转移给主体层级。完全自主危险,因为智能体判断无法被完全验证。每个真实部署都处于这个刻度盘的某个位置,通常是隐性的。
漂浮的刻度盘位置是安全漏洞:攻击者可以利用隐性自主阈值,或通过主体冒充滥用完全可纠正性。正确的架构将可纠正性编码为密码学签名、硬件证明的政策,规定哪些行动类别需要确认、哪些允许自主、哪些被无条件禁止。
量子安全签名确保政策在智能体部署生命周期内不可伪造。在物理世界关怀场景中,刻度盘应对不可逆行动偏向服从,同时保留足够标记异常和拒绝明显有害指令的狭窄自主区间。