× 量子安全 · × 硬件 · × 物理世界照護

漸進式降級問題：當AI智能體無法完成任務時，它對你的義務

作者：Asaptic Labs 2026-05-25 6 分鐘閱讀

關於AI智能體問責的讨论，通常聚焦於其所采取的行動：它是否在授權範圍內行事？是否簽發了行動回執？行動是否可归因於正確的委託人？這些都是正確的問題——但前提是智能體處於正常运行状態。

這並非全部的問題。系統會出故障，硬件會老化，網络會斷连，模型置信度會下降到不宜繼續推理的區間。在每一種情形下，智能體都面臨着几乎從未被明確指示過如何處理的抉择。它在這些時刻的行為，與正常运行下的行為同样關鍵。

漸進式降級並非附加在問責框架上的可靠性指標，而是問責框架本身的組成部分。一個在正常情况下行為正確、却在異常情况下隨意行事的智能體，其問責覆蓋存在巨大漏洞——而這一漏洞往往在風險最高的時刻才會显現。

三種故障模式

第一是服務降級。當智能體运行在多組件流水線中時，任何一個環節都可能隨時失去存取。當授權端點不可达時，大多數現有部署的預設做法是繼續运行，因為运營连續性被视為首要目標。正確答案取決於授權端點所把控的內容。對於低風險讀取操作，繼續运行或許可以接受；但如果是護理環境中的物理操作——實施治療、調整設備參數、發送臨床警報——在未獲授權確認的情况下繼續執行，並非"有所降級但可接受"的模式，而是一種問責失敗。

第二是硬件降級。當執行平台出現故障時——感測器失效、安全飛地不可用、TPM停止回應——認證鏈斷裂。一個在認證基础設施失效後仍繼續运行的智能體，所產生的行動已無從問責。在物理世界護理部署中，未經認證的行動不只是日誌空缺，而是無法驗證、無法回溯、無法追溯到具體硬件上下文的行動。

第三是模型不確定性。對於分佈外輸入或對抗性構造的提示，模型輸出分佈會變得不可靠，而模型本身缺乏可靠的內省能力——主观置信度有時在客观準確性最低時反而最高。安全降級行為的規範，不能依赖智能體的自我檢測，而必须依赖外部監控、置信區間和強制停止閾值。

為何這是問責要求

只能對正常情况下行動負責的智能體，仅構建了半個問責體系。另一半在於：明確规定智能體在出错時應如何應對，並留下證明其確實如此行事的審計記錄。

審查AI部署的調查人員和營運方不只會問正常运行時發生了什麼，还會問：當智能體遭遇非預期条件時，它是否安全停止？是否上報？是否終止行動？还是假裝故障未曾發生地繼續运行？這些問題的答案與正常运行時的問題同等重要——如果降級行為從未被明確规定，则更难以給出。

在三個交叉點的表現

在後量子安全交叉點，漸進式降級涉及密碼學基础設施。無法驗證後量子绑定的智能體不應繼續執行。正確的降級模式是停止並上報，而非退回到較弱的密碼方案——退回經典密碼學不是優雅降級，而是偽裝成可靠性特性的安全回退。

在硬件交叉點，降級是感測器與認證問題。執行環境失去硬件完整性保證的智能體，必须將自身视為已越出問責邊界，並停止一切後果性操作，而非假設認證鏈很快就會恢复。在認證間隙期間采取行動的智能體，對這段時間內的行為没有任何有意義的問責。

在物理世界護理交叉點，風險最為直接。在感測器輸入或授權鏈斷裂後仍悄然繼續运行的護理智能體，不是在艰难条件下尽力而為——它是在完全脱离問責框架的情况下运作。依赖其輸出的住客和臨床人員，所信赖的系統已不再滿足其建議被驗證時所依赖的前提条件。護理場景中的静默降級不是軟件故障，而是護理失誤，對人的福祉有直接影响。

规定安全停止點

正確的架構會提前、明確地规定每類後果性操作必须停止的条件。這要求在故障發生前預判故障模式，為每類操作指定降級類別，並建立能够檢測閾值越界並觸發受控停止的監控基础設施。這一規範是智能體部署問責面的一部分，應與權限模型、委託人層級和認證架構並列記錄。

無法说明自身在無法完成任務時會如何應對的智能體，其問責設计尚未完成。問題不只是：能完成時，智能體是否正確行事？还在於：無法完成時，智能體是否正確停止？

核心觀點

AI智能體的問責讨论通常聚焦於正常运行時的行動，而忽视了同样關鍵的問題：當系統出故障時，智能體應如何應對？漸進式降級並非可靠性指標，而是問責框架的組成部分。三種核心故障模式——服務降級（授權端點不可达）、硬件降級（認證鏈斷裂）、模型不確定性——在後量子安全、硬件與物理護理三個交叉點上各有不同的严重程度。正確的架構事先明確每類後果性操作必须停止的条件，並將其纳入權限模型與委託人層級文件。一個無法说明自身在無法完成任務時會如何應對的智能體，其問責設计尚未完成。

← 全部文章上篇：多租戶隔離問題 →