级联失效问题:一个失控的智能体如何腐化整条流水线
多智能体流水线中的每个智能体在单独设计时都是正确且安全的。组合问题追问的是:当这些智能体串联时,安全属性是否依然成立。而级联失效问题提出了一个更尖锐的问题:当某个智能体在生产环境中失效——不是在设计时,而是在高负载、真实输入的条件下——损害会蔓延多远?在大多数流水线中,答案是:比任何人规定的范围都远,因为隔离机制从未被设计进去。
单个智能体失效可通过三种截然不同的方式传播:它可以将损坏的输出向前推送,将下游智能体当成被动消费者;它可以滥用委托权限,利用自己持有的凭证以委托人层级从未授权的方式指挥子智能体;它还可以耗尽共享资源——内存、受速率限制的 API 调用、硬件容量——使与之并行运行的智能体陷入资源匮乏。每种传播模式都需要不同的隔离机制,而大多数流水线中没有任何一种被设计进去。
损坏输出的传播
不加独立验证便信任上游输入的下游智能体,是上游失效的被动放大器。如果上游智能体产生了看似合理但实际错误的输出——无论是由于模型性能下降、上下文污染攻击,还是静默的硬件故障——下游智能体将把这一错误融入自己的推理,并将进一步纠缠的错误向前传递。当损坏到达最终输出时,它已与有效的推理步骤混为一体,对终端用户而言完全不可见。
结构性修复方案不是对每个输入都保持怀疑,而是在每个流水线边界处明确定义:在下游智能体继续运行之前,上游输出必须满足哪些属性。这不是对上游推理的全面验证——那样做无从实现。它们是边界不变量:输出必须在指定范围内,必须仅引用经过证明的数据源,必须携带有效的阶段级签名。接收到违反边界不变量的输入的智能体,应当停止并上报,而非在损坏状态下继续运行。大多数流水线实现没有这样的不变量——它们假设上一阶段是正确的,因为这是流水线设计的前提,而生产环境会例行地证伪这一前提。
授权链的腐化
失控的智能体不仅代表自身行动。在大多数多智能体架构中,编排智能体持有用于派生和指挥子智能体的凭证。子智能体接受编排者的指令,隐性假设编排者在其授权范围内运行。当编排者遭到破坏——被上下文污染、被异常输入触发的逻辑错误,或被一个受损的模型版本——其子智能体会忠实地执行委托人层级从未授权的指令。子智能体并没有失控,它们完全按照设计运行:遵从编排者的指令。授权失效对它们而言是不可见的。
弥合这一缺口,需要子智能体不仅验证授予其任务的凭证,还要验证任务背后的授权链本身。委托智能体应将自身的授权范围以密码学方式绑定到其委托的任务上:只有当编排者可被证明拥有发出该指令的权限时,子智能体指令才有效。这比大多数当前委托模型所要求的更为严格,因为大多数当前模型验证的是凭证而非其所编码的授权链。当编排者被攻破时,凭证依然有效;断裂的只有授权链。
资源耗尽的级联
失效的智能体以不同于正常智能体的方式消耗资源。陷入异常推理循环的模型所发出的生成调用,远多于走正常路径的模型。重试对不可用认证服务发出请求的硬件认证智能体,会长时间占用其他流水线阶段所需的连接。等待上游上下文获取超时的照护计划生成智能体,会占用其他住户的智能体所需的照护协调器容量。这些资源失效是横向传播的,而不仅是向前传播:未能完成任务的智能体无法及时释放其资源声明,周边的智能体开始因竞争而失效——不是因为其自身输入有任何问题,而是因为失效阶段引入的资源争用。
架构上的应对措施是爆炸半径分析:对流水线中的每个智能体,定义它在任意时刻允许持有的最大资源声明、允许运行的最大时限(超时后熔断器将终止它),以及达到该限制时应当采取的明确操作——干净失效并发出错误信号、回退到降级路径,或向人工操作员升级。熔断器是对可接受降级方案的事先承诺。没有它,如何应对失效阶段的决策将默认为不作为,从而加剧故障。
三个交叉点如何集中这一问题
在后量子安全交叉点,级联失效具有其他领域所没有的密码学维度。流水线中间阶段所使用的签名密钥,构建了下游智能体所依赖的信任链。如果该阶段遭到破坏——密钥泄露,或模型被操控以对恶意输出签名——所有以该阶段为根派生的下游认证均告无效。这不仅仅是输出损坏问题,而是信任链问题:下游智能体从其可用的认证证据中,根本无法判断上游是否在正常运行。向后量子密码学的过渡是一个机会:将认证链重新设计为各阶段独立根,而非从单一密钥层级链式派生,使单一阶段的攻陷不会静默地使所有下游认证失效。
在硬件交叉点,问题表现为认证继承。经硬件证明的流水线通常对整条流水线整体认证,而非对每个阶段独立认证。某个阶段若部分在认证硬件边界之外执行——由于内存错误、执行期间的固件更新或容器逃逸——会使所有依赖流水线级认证的后续阶段的认证声明失效。独立的、阶段级硬件认证——每个阶段证明自身的执行环境,而非继承流水线级声明——将认证爆炸半径限制在受损阶段本身。
在物理世界照护交叉点,级联失效具有密码学与硬件交叉点所没有的直接性。产生错误风险评分的照护评估智能体,不仅仅是产生错误输出——它向用药智能体、升级智能体和家属通知智能体输入了错误的前提。当人类临床医生审阅最终输出时,级联已经产生了一份看起来连贯一致、实则深度错误的照护计划,每个阶段的推理都从上一阶段的错误中正确推导出来。照护流水线每个边界所需的不变量不仅是技术性的——它必须编码临床医生在将中间输出向前传递前所会进行的临床可行性校验。
在部署前设计
级联失效无法事后通过检视日志来修复。当终端输出被审阅时,损坏链与有效推理已无从区分。隔离机制——边界不变量、授权链验证、熔断器、爆炸半径限制——必须在流水线运行前设计完毕,并在每次阶段转换时强制执行,而非事后测试。一条未为失效而设计的流水线,就是一条在规模化场景下注定失效的流水线。
多智能体流水线中的单个智能体失效不只是局部问题:它沿三条路径扩散——向下游推送损坏输出、借助委托权限指挥未获授权的子智能体、耗尽流水线中其他智能体所需的共享资源。解决方案不是事后检视日志,而是在部署前设计三类机制:各阶段边界不变量(下游智能体在接受上游输出前须验证的属性集)、授权链验证(子智能体确认编排者实际拥有委托任务的权限),以及熔断器和爆炸半径限制(失效智能体可占用的最大资源及触发熔断的时限)。三个交叉点各有侧重:后量子安全领域需要各阶段独立根密钥而非链式派生;硬件领域需要阶段级认证而非流水线级认证;物理照护领域需要在每个流水线边界嵌入临床可行性校验。