指令折疊問題：AI 智能體丟失授權指令細節時的問責困境

在部署之初，給予 AI 照護智能體的指令通常是詳細而有條件的：如果照護對象連續三次拒絕服藥，則聯絡照護協調員，但若拒絕模式符合已記錄的個人偏好，則無需聯絡；僅在生命體徵超出特定閾值時於夜間升級處理，但周四除外，因為夜班護士已事先收到通知。

部署數月後，這些指令名義上仍在約束着智能體。但智能體已不再根據原始文本運作，而是基於一種壓縮後的表示——多次折疊上下文窗口後留下的摘要之摘要，以便為更近期的運營數據騰出空間。指令在某種形式上仍然存在。但使其具有可問責性的細節已不復存在。

這就是指令折疊問題：不是對齊失敗，而是保真度失敗——條件邏輯的逐漸侵蝕，而正是這種條件邏輯賦予了智能體權限以具體形狀。

為何壓縮在結構上不可避免

長周期 AI 智能體面臨一個硬約束：上下文窗口是有限的。一個持續運行的照護智能體——記錄觀察、追蹤照護事件——會以比部署周期更快的速度填滿可用上下文。為了繼續運作，它必須進行壓縮。

壓縮本身並非失敗，而是任何需要跨時間運作的系統的正常運行模式。問題在於壓縮對條件指令的影響。「執行 X，除非滿足條件 Y，此時執行 Z，但前提是在過去 72 小時內滿足了標準 W」這樣的句子並不適合優雅壓縮。條件、例外和時間限定詞正是使指令安全的因素，也恰恰是壓縮最先丟失的細節。

指令折疊問題尤其難以察覺，因為它不會產生明顯的錯誤。基於折疊後指令運作的智能體大多數情況下看起來仍然是正確的。偏差出現在邊緣情況、閾值條件下，以及那些當初特意註明情形的時刻。

從監督的角度來看，這是最難處理的漂移。智能體的每個單獨行動都有理可辯。日誌記錄合情合理。沒有哪一個決策明顯是錯的。出錯的是：智能體不再受到它被給予的那份詳細、經過協商的授權約束，而是受到這份授權的近似版本約束。

在安全關鍵系統中，指令折疊問題有一個直接的結構類比。密碼協議最初以詳細配置文件部署：哪些密碼套件被允許，哪些被禁止，降級條件下的回退層級是甚麼，密鑰協商應如何進行。隨着時間推移，這些文件被逐層歸納為運營手冊、縮略政策引用和機構記憶。

後量子密碼遷移使這一失效模式變得尤為緊迫。醫療相關硬件的遷移指令包含遺留兼容性例外、時間窗口、硬件認證要求以及依賴特定版本條件的回退程序。如果負責協調或核驗遷移的智能體基於壓縮表示運作，它可能相信自己已遵循協議，而實際上繞過了安全關鍵條件分支。

指令折疊問題指向一項具體的問責要求：授權指令集必須單獨進行版本控制和保存，智能體的運行上下文必須定期與其進行核對。這不僅是一種技術實踐，更是一種問責實踐。

在照護環境中，這意味着應將初始指令集視為一種受治理的製品，而不僅僅是一個配置文件。它應當被版本控制、由授權各方簽署，並按照部署敏感程度所規定的時間間隔與智能體壓縮後的運行上下文進行比對。

在 Asaptic Labs，我們認為指令折疊問題在當前 AI 照護治理框架中被低估了。這些框架往往關注訓練期間的行為漂移，而非推理期間的保真度損失。推理時的指令折疊只有將智能體的運行上下文與原始授權指令進行比對才能發現。

核心觀點

長期運行的 AI 智能體通過壓縮上下文來持續運作。詳細的條件指令——賦予智能體權限以具體形狀的條件邏輯——恰恰是壓縮最先丟失的內容。問責要求將原始指令集作為受治理的製品加以保存，並定期與智能體的運行上下文進行核對。