治理者的治理问题:当AI智能体审计AI智能体时的问责困境
多智能体架构越来越多地将AI审计方置于AI执行体之上。当审计方本身也是模型时,问责结构并未得到加强——它只是被推后了一个层级,关联失效可能在无人察觉的情况下发生。
当一个AI护理系统发生故障时,第一反应是追问:监督结构是什么?如今,这个问题诚实的答案往往是:监督本身就是AI。审查队列由一个模型完成分类,合规摘要由一个模型生成,本应被标记的异常在到达任何人工审查者之前已被一个模型过滤。作出关键决策的AI执行体被一个AI过程所审查——而这个审查的失效,正是问责缺口所在。
这就是"治理者的治理问题":在AI智能体被委托监督其他AI智能体的系统中,审计方的属性是被假定的而非被验证的,问责因此陷入困境。
AI中介监督的结构性吸引力
以AI监督AI的逻辑是直接的。人工审查高频、快节奏的智能体系统已然捉襟见肘。AI审计方可以检查每一个决策、识别异常、以无可比拟的规模生成结构化的合规报告。如果AI执行体每天作出一千个决策,AI审计方就能为这一千个决策生成摘要——持续、不疲倦、边际成本低廉。
结构性问题在于:这并没有解决监督挑战,只是将其推后一步。AI审计方本身也是一个模型,有其自己的校准方式、分布假设,以及自己出错的方式。在AI执行体之上增加一个AI层,并不能增加独立性——它只是增加了另一个模型。问责链条变长了,但并没有变得更稳健。
关联失效风险
监督的独立性不仅仅是一项形式要求,它是一项功能要求。对AI决策持异议的人工审计者,带来的是不同的先验知识、不同的观察历史和不同的失效特征。而当AI审计方对AI执行体持异议时,它可能是在捕捉真实错误,也可能只是将一个略有不同但同样存在偏差的模型应用于相同的决策空间。
在供应商提供全栈系统的护理部署中,AI执行体和AI审计方可能共享训练谱系、特征词汇,以及对"正常"交互应当如何的共同假设。最有可能错过执行体错误的审计方,正是那个被训练为识别相同模式的审计方。关联失效——两个系统朝同一方向出错——从结构上而言比独立失效更危险,因为它能生成一个一致、内部连贯的问责记录,而这份记录显示不出任何异常。日志是干净的,两个系统意见一致——两者都是错的。
这在结构上类似于模型单一文化问题,但作用于问责层而非运营层。问责层的关联失效比运营层的关联失效更糟糕,因为它消除了检测两者失效的机制。
后量子密码架构的启示
在安全关键系统中,治理者的治理问题有一个直接的结构类比。一条验证链——签名被校验以对应背书证书,背书证书再对应信任根——与AI监督链具有相同的拓扑结构。每一层都将验证委托给下一层。如果任何一层在注册时被错误配置,这条链可能表面上运作正常,却无法提供任何真实的保证。
后量子密码迁移以一种新的方式揭示了这一点。当某一层所依赖的底层原语在密码学上被弱化,建立于其上的每一层也随之被弱化——包括负责验证的那些层。一条依赖被损害的审计模型的AI问责链类似于此:签名记录存在,验证通过,证据在结构上完好——只在整条链断裂的那个点上除外。
硬件根信任提供了一个应对模型。安全飞地中的信任锚是运行于其上的软件无法证明或伪造的东西。应用于AI问责,这意味着监督链必须始终终止于AI被治理系统本身无法塑造的某处:一个未经AI过滤的人工审查、一个具有独立训练谱系的第三方审计,或一条完全路由于模型栈之外的升级路径。
正确架构的要求
解决治理者的治理问题需要显式设计,而非假定自然涌现。问责链必须明确在哪些环节需要独立性——不仅仅是在哪些环节存在监督。AI审计方审查AI执行体,这是监督。但这不是独立性,除非审计方的校准方式、训练数据和失效模式可以被核实,与其所审查系统存在可问责的差异。
在实践中,这意味着护理部署应当记录:提供了哪些AI监督,AI审计方的谱系和校准依据是什么,以及升级路径中第一个真正非AI的节点在哪里。这意味着构建能够被审计审计方绩效的系统——以独立输入,而非仅以其所审查执行体的输出为依据。这也意味着抵制全栈AI合规的便利性:自动生成完整问责记录的吸引力,恰恰是使关联失效变得不可见的那个属性。
在Asaptic Labs,我们认为正确的框架不是"这个决策是否被审计",而是"审计本身是否可被审计,且是否由具有独立失效模式的对象进行"。治理者的治理问题,不是通过在其上增加另一个AI层来解决的。在某个节点,这条链必须终止于一个AI被治理系统本身无法塑造、证明或损害的问责基础——正是在那个节点,真正的监督才开始。
以AI审计AI是对问责问题的推迟,而非解决。当AI执行体与AI审计方共享训练谱系或分布假设时,关联失效可以生成一份干净、内部一致的记录,从而掩盖系统性错误。稳健的问责要求监督链终止于真正独立的某处——一个被治理AI系统本身无法证明、塑造或损害的节点。链条中每一个仅由模型构成的环节,增加的是长度,而非独立性。