回滾問題:當 AI 智能體的行動無法撤銷,該怎麼辦
大多數軟件系統的架構建立在一個假設之上:錯誤可以被糾正。資料庫有事務,版本控制有回退,部署流程有回滾管道。整個可靠軟件工程的學科都建立在這樣一個前提上:如果出了問題,可以撤銷並重新嘗試。這個前提如此根深蒂固,以至於很少被審視。但對於越來越多的 AI 智能體來說,這個前提是錯誤的。
當 AI 智能體安排藥物給藥、執行證券交易、向飛行中的無人機發出指令,或者調度緊急應對團隊時——行動已經發生。沒有事務可以回滾,沒有指針可以恢復,沒有原子單元可以中止。世界已經改變。藥物已在患者體內。頭寸已經開倉。無人機已經移動。團隊已經出發。接下來的一切都必須從新状態推進,而非舊状態。這不是軟件問題,而是物理問題。
回滾問題有三個不同層次,解決其中一個並不能解決其他兩個。第一層是物理不可逆性:觸及真實世界的行動——給藥、移動、部署、物理訪問——無法通過任何軟件機制撤銷。這一層要求在不可逆行動發生之前設置門控,而非事后記錄。第二層是機構不可逆性:許多行動在物理上可逆,但在機構層面已固化。向監管機構發出的函件、向對手方記錄的披露——這些可以物理修改,但原始行動已成為外部記錄的一部分。對於這一層,設計要求是分階段提交:智能體提案,記錄以暫定状態創建,合格人員確認后才向外部系統傳播。第三層是信任不可逆性:當智能體在人們依賴它的領域做出錯誤決定時,對信任關系的損害不會因糾正行動而自動修復。信任一旦受損,就有其自身的恢復曲线,任何軟件回滾都無法觸及。
使回滾問題在 AI 智能體中尤為緊迫的是:智能體具有的有用屬性——自主行動、快速行動、同時跨多個會話行動——正是放大不可逆錯誤代价的屬性。配置錯誤或在授權範圍外運行的智能體,可能在任何人發現模式之前,在數百種情形中發出相同的錯誤行動。不可逆性乘以規模,是與單纯不可逆性不同的风险類別。
正確的架構應對是在部署前為每個可執行動作建立可逆性分類體系:可自由執行(智能體可無需門控行動)、分階段提交(智能體提案,需人員確認后才向外部傳播)、人工硬性審批(智能體提交請求,合格人員批准,行動執行,會話日誌附帶審批者身份)。還需配合軌跡監控機制,在累積模式越界前觸發告警。問責不是事后標籤,而是在部署前内置於行動分類體系中的架構屬性。
AI 智能體在物理世界中的行動——給藥、指令下達、緊急應對部署——一旦執行便無法撤銷。回滾問題分為三個層次:物理不可逆性(需要事前硬性人工審批門控)、機構不可逆性(需要分階段提交機制)、信任不可逆性(需要透明糾正通信)。當智能體在規模化部署中行動時,不可逆性的代价被放大數倍。正確的架構應對是在部署前為每個可執行動作建立可逆性分類體系——可自由執行、分階段提交、人工硬性審批——並结合軌跡監控機制,在累積模式越界前觸發告警。問責不是事后標籤,而是在部署前内置於行動分類體系中的架構屬性。