狀態同步問題:當AI智能體的世界模型與現實產生偏差
智能體基於它所知道的內容行動。它所知道的,始終是一個模型——一種從觀察到的輸入中派生出來的對世界的結構化表示。這個模型有一個時間戳,即便是隱性的。從模型形成的那一刻到智能體實際採取行動之間,世界可能已經發生了變化。如果智能體無法判斷其模型是否仍然有效,就無法判斷其行動是否仍然安全。
這就是狀態同步問題:智能體的內部世界表示與世界當前實際狀態之間的差距。這不是一個缺陷,而是任何通過離散輸入觀察世界並在稍後採取行動的智能體所固有的結構性屬性。
為何新鮮度是一種安全屬性
工程師通常將狀態新鮮度視為性能問題。緩存過時浪費一次調用;傳感器讀數過期延遲響應。這種框架是效率層面的,而非安全層面的。
在針對不可逆決策運行的智能體系統中,這種框架是錯誤的。一個基於十分鐘前的世界讀數來執行給藥、啟動安全吊銷或發出物理執行器指令的智能體,執行的不是一個緩慢的操作,而是一個針對已不復存在的世界狀態被授權的操作。授權在授予時是有效的;操作對於授權所假設的狀態是有效的。如果該狀態已經改變,操作便不再有效——但智能體沒有任何機制來感知這一點。
後量子密碼學在特定領域中使這一問題變得具體。在有效密鑰下簽名的憑證必須在使用時重新驗證,而非因為其簽發時有效就被信任。如果簽名密鑰自簽發以來已被吊銷,基於緩存有效性斷言採取行動的智能體,是在依據一個已經不再為真的事實狀態行動。吊銷事件是世界狀態的變化;智能體的緩存信任是過期模型。
物理世界照護:最難的實例
狀態同步問題在物理世界照護部署中最為突出。患者的狀況變化可以快於任何監控系統的輪詢間隔。一個在T₀時刻最後收到狀態更新、在T₁時刻採取行動的智能體,是基於T₀時刻患者狀態的模型採取行動。如果患者狀況在T₀.₅時刻發生了變化,智能體的模型是錯誤的,行動可能造成傷害。
這不是假設性的邊緣情形,而是任何具備實際規模的照護AI部署的正常運行條件。能夠以全分辨率主動監控的患者數量受基礎設施限制,而需要照護的患者數量則不受此限制。每個照護AI系統都在狀態同步部分缺失的狀態下運行,且過期程度是可變的、對智能體而言並非完全可知的。
設計含義是:狀態新鮮度必須被明確聲明和強制執行,而不是被假定。對於將要針對照護相關狀態採取行動的智能體,應要求新鮮度證明——來自監控系統的簽名斷言,證明其即將據以行動的狀態在定義時間窗口內有效。如果證明缺失或已過期,操作應被阻止,直到完成重新觀察。這不是性能優化,而是安全門控。
級聯與流水線問題
在多智能體流水線中,狀態同步問題會複合疊加。協調智能體的世界模型部分來自子智能體的輸出,而這些子智能體是在更早的時刻根據其收到的輸入形成輸出的。協調智能體的模型至少與其流水線中最過期的輸入一樣陳舊——通常情況下它無法知道哪個輸入是最過期的。
在不傳遞時間戳的情況下傳輸狀態的流水線,會產生一個模型年齡未知、行動相關性未知的行動者。當下游智能體基於過期的上游狀態造成傷害時,因果鏈包含了同步差距——但這一差距在任何單個智能體的日誌中都是不可見的。
設計應對
將狀態新鮮度視為信任原語,意味著為智能體將用於授權不可逆操作的每個狀態斷言附加時間戳和新鮮度邊界。新鮮度邊界是由定義智能體範圍的權威機構在部署時做出的決策:鑑於該智能體可採取行動的風險級別,其所據以行動的世界狀態可以有多舊?該邊界應在操作點被簽名、證明和強制執行,而非從數據流水線的速度中假定。
對於照護AI,這意味著在臨床操作前設置新鮮度門控。對於後量子系統,這意味著在操作時而非簽發時進行吊銷檢查。對於硬件智能體,這意味著在執行器指令前設置傳感器驗證窗口。
洞察很簡單,卻經常被忽視:一個自信地基於過期世界採取行動的智能體,不是一個運行良好的智能體。它是一個不知道自己在無中生有的智能體。