← 返回博客
× 量子安全 · × 硬件 · × 物理世界照護

漸進式降級問題:當AI智能體無法完成任務時,它對你的義務

2026-05-25 6 分鐘閱讀

關於AI智能體問責的讨论,通常聚焦於其所采取的行動:它是否在授權範圍內行事?是否簽發了行動回執?行動是否可归因於正確的委託人?這些都是正確的問題——但前提是智能體處於正常运行状態。

這並非全部的問題。系統會出故障,硬件會老化,網络會斷连,模型置信度會下降到不宜繼續推理的區間。在每一種情形下,智能體都面臨着几乎從未被明確指示過如何處理的抉择。它在這些時刻的行為,與正常运行下的行為同样關鍵。

漸進式降級並非附加在問責框架上的可靠性指標,而是問責框架本身的組成部分。一個在正常情况下行為正確、却在異常情况下隨意行事的智能體,其問責覆蓋存在巨大漏洞——而這一漏洞往往在風險最高的時刻才會显現。

三種故障模式

第一是服務降級。當智能體运行在多組件流水線中時,任何一個環節都可能隨時失去存取。當授權端點不可达時,大多數現有部署的預設做法是繼續运行,因為运營连續性被视為首要目標。正確答案取決於授權端點所把控的內容。對於低風險讀取操作,繼續运行或許可以接受;但如果是護理環境中的物理操作——實施治療、調整設備參數、發送臨床警報——在未獲授權確認的情况下繼續執行,並非"有所降級但可接受"的模式,而是一種問責失敗。

第二是硬件降級。當執行平台出現故障時——感測器失效、安全飛地不可用、TPM停止回應——認證鏈斷裂。一個在認證基础設施失效後仍繼續运行的智能體,所產生的行動已無從問責。在物理世界護理部署中,未經認證的行動不只是日誌空缺,而是無法驗證、無法回溯、無法追溯到具體硬件上下文的行動。

第三是模型不確定性。對於分佈外輸入或對抗性構造的提示,模型輸出分佈會變得不可靠,而模型本身缺乏可靠的內省能力——主观置信度有時在客观準確性最低時反而最高。安全降級行為的規範,不能依赖智能體的自我檢測,而必须依赖外部監控、置信區間和強制停止閾值。

為何這是問責要求

只能對正常情况下行動負責的智能體,仅構建了半個問責體系。另一半在於:明確规定智能體在出错時應如何應對,並留下證明其確實如此行事的審計記錄。

審查AI部署的調查人員和營運方不只會問正常运行時發生了什麼,还會問:當智能體遭遇非預期条件時,它是否安全停止?是否上報?是否終止行動?还是假裝故障未曾發生地繼續运行?這些問題的答案與正常运行時的問題同等重要——如果降級行為從未被明確规定,则更难以給出。

在三個交叉點的表現

在後量子安全交叉點,漸進式降級涉及密碼學基础設施。無法驗證後量子绑定的智能體不應繼續執行。正確的降級模式是停止並上報,而非退回到較弱的密碼方案——退回經典密碼學不是優雅降級,而是偽裝成可靠性特性的安全回退。

在硬件交叉點,降級是感測器與認證問題。執行環境失去硬件完整性保證的智能體,必须將自身视為已越出問責邊界,並停止一切後果性操作,而非假設認證鏈很快就會恢复。在認證間隙期間采取行動的智能體,對這段時間內的行為没有任何有意義的問責。

在物理世界護理交叉點,風險最為直接。在感測器輸入或授權鏈斷裂後仍悄然繼續运行的護理智能體,不是在艰难条件下尽力而為——它是在完全脱离問責框架的情况下运作。依赖其輸出的住客和臨床人員,所信赖的系統已不再滿足其建議被驗證時所依赖的前提条件。護理場景中的静默降級不是軟件故障,而是護理失誤,對人的福祉有直接影响。

规定安全停止點

正確的架構會提前、明確地规定每類後果性操作必须停止的条件。這要求在故障發生前預判故障模式,為每類操作指定降級類別,並建立能够檢測閾值越界並觸發受控停止的監控基础設施。這一規範是智能體部署問責面的一部分,應與權限模型、委託人層級和認證架構並列記錄。

無法说明自身在無法完成任務時會如何應對的智能體,其問責設计尚未完成。問題不只是:能完成時,智能體是否正確行事?还在於:無法完成時,智能體是否正確停止?

核心觀點

AI智能體的問責讨论通常聚焦於正常运行時的行動,而忽视了同样關鍵的問題:當系統出故障時,智能體應如何應對?漸進式降級並非可靠性指標,而是問責框架的組成部分。三種核心故障模式——服務降級(授權端點不可达)、硬件降級(認證鏈斷裂)、模型不確定性——在後量子安全、硬件與物理護理三個交叉點上各有不同的严重程度。正確的架構事先明確每類後果性操作必须停止的条件,並將其纳入權限模型與委託人層級文件。一個無法说明自身在無法完成任務時會如何應對的智能體,其問責設计尚未完成。