× 物理系統 × 量子安全 × 人文關懷

回滾問題：當 AI 智能體的行動無法撤銷，該怎麼辦

作者：Asaptic Labs 2026-06-14 5 分鐘閱讀

大多數軟件系統的架構建立在一個假設之上：錯誤可以被糾正。資料庫有事務，版本控制有回退，部署流程有回滾管道。整個可靠軟件工程的學科都建立在這樣一個前提上：如果出了問題，可以撤銷並重新嘗試。這個前提如此根深蒂固，以至於很少被審視。但對於越來越多的 AI 智能體來說，這個前提是錯誤的。

當 AI 智能體安排藥物給藥、執行證券交易、向飛行中的無人機發出指令，或者調度緊急應對團隊時——行動已經發生。沒有事務可以回滾，沒有指針可以恢復，沒有原子單元可以中止。世界已經改變。藥物已在患者體內。頭寸已經開倉。無人機已經移動。團隊已經出發。接下來的一切都必須從新状態推進，而非舊状態。這不是軟件問題，而是物理問題。

回滾問題有三個不同層次，解決其中一個並不能解決其他兩個。第一層是物理不可逆性：觸及真實世界的行動——給藥、移動、部署、物理訪問——無法通過任何軟件機制撤銷。這一層要求在不可逆行動發生之前設置門控，而非事后記錄。第二層是機構不可逆性：許多行動在物理上可逆，但在機構層面已固化。向監管機構發出的函件、向對手方記錄的披露——這些可以物理修改，但原始行動已成為外部記錄的一部分。對於這一層，設計要求是分階段提交：智能體提案，記錄以暫定状態創建，合格人員確認后才向外部系統傳播。第三層是信任不可逆性：當智能體在人們依賴它的領域做出錯誤決定時，對信任關系的損害不會因糾正行動而自動修復。信任一旦受損，就有其自身的恢復曲线，任何軟件回滾都無法觸及。

使回滾問題在 AI 智能體中尤為緊迫的是：智能體具有的有用屬性——自主行動、快速行動、同時跨多個會話行動——正是放大不可逆錯誤代价的屬性。配置錯誤或在授權範圍外運行的智能體，可能在任何人發現模式之前，在數百種情形中發出相同的錯誤行動。不可逆性乘以規模，是與單纯不可逆性不同的风险類別。

正確的架構應對是在部署前為每個可執行動作建立可逆性分類體系：可自由執行（智能體可無需門控行動）、分階段提交（智能體提案，需人員確認后才向外部傳播）、人工硬性審批（智能體提交請求，合格人員批准，行動執行，會話日誌附帶審批者身份）。還需配合軌跡監控機制，在累積模式越界前觸發告警。問責不是事后標籤，而是在部署前内置於行動分類體系中的架構屬性。

摘要

AI 智能體在物理世界中的行動——給藥、指令下達、緊急應對部署——一旦執行便無法撤銷。回滾問題分為三個層次：物理不可逆性（需要事前硬性人工審批門控）、機構不可逆性（需要分階段提交機制）、信任不可逆性（需要透明糾正通信）。當智能體在規模化部署中行動時，不可逆性的代价被放大數倍。正確的架構應對是在部署前為每個可執行動作建立可逆性分類體系——可自由執行、分階段提交、人工硬性審批——並结合軌跡監控機制，在累積模式越界前觸發告警。問責不是事后標籤，而是在部署前内置於行動分類體系中的架構屬性。

← 全部文章下一篇：上下文污染 →