級聯失效問題:一個失控的智能體如何腐化整條流水線
多智能體流水線中的每个智能體在单独設計时都是正確且安全的。組合問題追问的是:当这些智能體串联时,安全屬性是否依然成立。而級聯失效問題提出了一个更尖锐的問題:当某个智能體在生产環境中失效——不是在設計时,而是在高負載、真实输入的条件下——损害会蔓延多远?在大多数流水線中,答案是:比任何人规定的範圍都远,因为隔離机制从未被設計进去。
单个智能體失效可通过三种截然不同的方式傳播:它可以将損壞的輸出向前推送,将下游智能體当成被动消费者;它可以濫用委託權限,利用自己持有的憑證以委託人层级从未授權的方式指揮子智能體;它还可以耗盡共享資源——記憶體、受速率限制的 API 呼叫、硬件容量——使与之并行運行的智能體陷入資源匱乏。每种傳播模式都需要不同的隔離机制,而大多数流水線中没有任何一种被設計进去。
損壞輸出的傳播
不加獨立驗證便信任上游输入的下游智能體,是上游失效的被动放大器。如果上游智能體产生了看似合理但實際错误的輸出——无论是由于模型性能下降、上下文污染攻击,还是靜默的硬件故障——下游智能體将把这一错误融入自己的推理,并将进一步纠缠的错误向前传递。当損壞到达最终輸出时,它已与有效的推理步骤混为一体,对終端用戶而言完全不可见。
結構性修复方案不是对每个输入都保持怀疑,而是在每个流水線邊界处明確定义:在下游智能體继续運行之前,上游輸出必须满足哪些屬性。这不是对上游推理的全面驗證——那样做无从实现。它们是邊界不變量:輸出必须在指定範圍内,必须仅引用经过证明的數據源,必须携带有效的阶段级簽名。接收到违反邊界不變量的输入的智能體,应当停止并上報,而非在損壞狀態下继续運行。大多数流水線实现没有这样的不變量——它们假设上一阶段是正確的,因为这是流水線設計的前提,而生产環境会例行地证伪这一前提。
授權链的腐化
失控的智能體不仅代表自身行动。在大多数多智能體架构中,編排智能體持有用于派生和指揮子智能體的憑證。子智能體接受編排者的指令,隐性假设編排者在其授權範圍内運行。当編排者遭到破坏——被上下文污染、被异常输入触发的邏輯错误,或被一个受损的模型版本——其子智能體会忠實地執行委託人层级从未授權的指令。子智能體并没有失控,它们完全按照設計運行:遵从編排者的指令。授權失效对它们而言是不可见的。
弥合这一缺口,需要子智能體不仅驗證授予其任务的憑證,还要驗證任务背后的授權链本身。委託智能體应将自身的授權範圍以密碼学方式绑定到其委託的任务上:只有当編排者可被证明拥有发出该指令的權限时,子智能體指令才有效。这比大多数當前委託模型所要求的更为嚴格,因为大多数當前模型驗證的是憑證而非其所编码的授權链。当編排者被攻破时,憑證依然有效;断裂的只有授權链。
資源耗盡的級聯
失效的智能體以不同于正常智能體的方式消耗資源。陷入异常推理迴圈的模型所发出的生成呼叫,远多于走正常路徑的模型。重试对不可用認證服务发出請求的硬件認證智能體,会长时间占用其他流水線阶段所需的連接。等待上游上下文获取超时的照護計劃生成智能體,会占用其他住戶的智能體所需的照護協調器容量。这些資源失效是横向傳播的,而不仅是向前傳播:未能完成任务的智能體无法及时釋放其資源聲明,周边的智能體开始因競爭而失效——不是因为其自身输入有任何問題,而是因为失效阶段引入的資源爭用。
架构上的应对措施是爆炸半徑分析:对流水線中的每个智能體,定义它在任意时刻允许持有的最大資源聲明、允许運行的最大時限(超时后熔斷器将终止它),以及达到该限制时应当采取的明確操作——干净失效并发出错误信号、回退到降級路徑,或向人工操作員升级。熔斷器是对可接受降級方案的事先承诺。没有它,如何应对失效阶段的決策将默認為不作為,从而加劇故障。
三个交叉點如何集中这一問題
在後量子安全交叉點,級聯失效具有其他領域所没有的密碼学維度。流水線中间阶段所使用的簽名金鑰,构建了下游智能體所依赖的信任链。如果该阶段遭到破坏——金鑰洩露,或模型被操控以对恶意輸出簽名——所有以该阶段为根派生的下游認證均告无效。这不仅仅是輸出損壞問題,而是信任链問題:下游智能體从其可用的認證證據中,根本无法判断上游是否在正常運行。向後量子密碼学的过渡是一个机会:将認證链重新設計为各阶段獨立根,而非从單一金鑰层级链式派生,使單一阶段的攻陷不会靜默地使所有下游認證失效。
在硬件交叉點,問題表现为認證继承。经硬件证明的流水線通常对整条流水線整體認證,而非对每个阶段獨立認證。某个阶段若部分在認證硬件邊界之外執行——由于記憶體错误、執行期间的韌體更新或容器逃逸——会使所有依赖流水線级認證的后续阶段的認證聲明失效。獨立的、阶段级硬件認證——每个阶段证明自身的執行環境,而非继承流水線级聲明——将認證爆炸半徑限制在受损阶段本身。
在物理世界照護交叉點,級聯失效具有密碼学与硬件交叉點所没有的直接性。产生错误風險評分的照護评估智能體,不仅仅是产生错误輸出——它向用藥智能體、升级智能體和家屬通知智能體输入了错误的前提。当人类臨床醫生審閱最终輸出时,級聯已经产生了一份看起来连贯一致、实则深度错误的照護計劃,每个阶段的推理都从上一阶段的错误中正確推导出来。照護流水線每个邊界所需的不變量不仅是技术性的——它必须编码臨床醫生在将中间輸出向前传递前所会进行的臨床可行性校验。
在部署前設計
級聯失效无法事后通过檢視日誌来修复。当終端輸出被審閱时,損壞链与有效推理已无从区分。隔離机制——邊界不變量、授權链驗證、熔斷器、爆炸半徑限制——必须在流水線運行前設計完毕,并在每次阶段转换时强制執行,而非事后测试。一条未为失效而設計的流水線,就是一条在規模化场景下注定失效的流水線。
多智能體流水線中的单个智能體失效不只是局部問題:它沿三条路徑扩散——向下游推送損壞輸出、借助委託權限指揮未获授權的子智能體、耗盡流水線中其他智能體所需的共享資源。解決方案不是事后檢視日誌,而是在部署前設計三类机制:各阶段邊界不變量(下游智能體在接受上游輸出前须驗證的屬性集)、授權链驗證(子智能體确认編排者實際拥有委託任务的權限),以及熔斷器和爆炸半徑限制(失效智能體可占用的最大資源及触发熔断的時限)。三个交叉點各有侧重:後量子安全領域需要各阶段獨立根金鑰而非链式派生;硬件領域需要阶段级認證而非流水線级認證;物理照護領域需要在每个流水線邊界嵌入臨床可行性校验。