語義差距問題:意圖與解釋分離時的問責制
自然語言指令包含 AI 智能體行動時必須解析的歧義。智能體在無聲中進行解析,不向發出指令的委託人呈現其解釋。隨後的行動在形式上被授權——但它是否符合委託人的真實意圖,審計日誌無法回答。
給 AI 智能體的每一條指令,都是以某種程度上具有歧義的語言表達的。"更新"、"監控"、"升級"和"管理"等词語的含義會隨着語境、領域惯例和具體情况而變化。智能體必須解析這種歧義——否則根本無法行動——但它是在無聲中進行解析的。發出指令的委託人無法得知智能體如何理解"更新配置"或"處理标記案例"。隨後的行動在形式上是被授權的,因為委託人發出了指令;但它是否符合委託人的真實意圖,則完全是另一個問題。這就是語義差距問題,它位於所有關於 AI 智能體的問責主张的基礎之上。
為甚麼這不是用戶體驗問題
語義差距有時被視為溝通設計問題——如果指令描述得更清晰,差距就會消失。但這種定性誤判了問題所在。差距不是由於指令寫得不好而產生的,而是源於委託人溝通方式與智能體行動方式之間的結構性不匹配。委託人以假設共享語境、領域知識和善意解讀意圖的語言進行溝通。智能體則依據其訓練編碼的語言解釋行動,這種解釋可能在雙方都未察覺的情况下偏離委託人的意圖。
再好的指令設計也無法完全消除這一差距,因為生產環境中到達智能體的指令並非出自試图混淆它的對手——而是出自期望智能體做出合理解讀的領域專業人士。當智能體的"合理解讀"與專業人士的意圖不同時,這一差距就具有結構性。
問責後果是嚴重的:當智能體基於對歧義指令的貌似合理但錯誤的解讀而行動並造成傷害時,委託人可能認為自己授權了正確的行動,而智能體記錄的是它按照指令執行了。雙方都有清白的記錄。意圖與解釋之間的差距在審計日誌中是不可見的——日誌忠實地記錄了指示的內容和執行的內容,但未記錄意圖與理解之間的偏差。
後量子交叉點
密碼學遷移對語義差距失效尤為脆弱。"遷移到抗量子算法"或"優先考慮前向保密配置"等指令包含巨大的隱含規格:哪些算法符合條件?在哪些性能約束下?適用於哪些密鑰长度和协議版本?將"抗量子"解讀為"合規清單上的任何算法"的智能體,可能會選擇滿足標籤但不滿足底層安全意圖的算法。
指令被遵守了,意圖被忽略了。這種差異可能多年後才會浮現——當委託人預設的具體威胁模型面對實際執行的遷移被測試時。届時,所選算法、配置的协議版本和生成的密鑰材料已深度嵌入基礎設施。審計日誌顯示合規無誤,語義差距在其中不可見。
硬件交叉點
機隊管理智能體接收關於維護、配置和干預的語義密集型指令。"處理異常功耗"沒有規定是限制、重啟、隔離還是告警。"保持在運行參數内"包含了"運行"對於在多變條件下運行的設備意味着甚麼的全部復杂性。依據最常訓練的解釋默認處理這些指令的智能體,可能在典型情况下正確行動,但在新穎條件下產生失敗——恰恰是委託人意圖最為具體、智能體插值最不可靠的條件。
日誌中記錄的維護行動與指令逐字匹配。與意圖的偏差未被記錄在任何地方。重建事件軌跡的調查人員看到的是一個合規智能體按指令執行。問責問題——智能體是否按照操作員的意思解釋了指令?——在記錄中沒有答案。
物理世界護理交叉點
護理指令承载着最具影响的語義差距。關於何時升級、如何解讀行為信號以及甚麼構成"穩定"或"痛苦"的指令,是以同一領域的專業人士根據訓練、經驗和面前的具體個體會有不同解讀的語言表達的。一個解析"監控痛苦信號"的護理智能體,將依據其訓練分布應用自己對"痛苦"的解釋——這可能與護理團隊對這位有特定病史的個體在這些條件下的意圖不符。
當傷害發生時,指令日誌顯示監控已執行。語義差距——護理團隊所說的"痛苦信號"與智能體所理解的痛苦信號之間——在記錄中不可見。應附著於超出指令預期含義行動的智能體的問責,被僅顯示表面形式合規的文件所掩蓋。
問責架構的要求
完全消除語義差距是不可能的。但可以約束其後果。對於在自然語言指令下運行的 AI 智能體的問責架構,至少要求智能體在對重要决策採取行動之前,呈現其對歧義指令的解釋——不是作為形式,而是作為委託人可以確認或糾正理解的真實檢查點。先行動后記錄解釋、或根本不呈現解釋的系統,使語義差距永久不可見。
在高風險領域的部署——密碼基礎設施、機隊管理、物理護理——需要特定範圍的解釋框架:限制智能體對領域關鍵術語解釋的結構化詞彙,以及當指令是新穎的、歧義的或在智能體訓練中缺乏先例時觸發的升級要求。在無法強制要求解釋確認的地方,日誌記錄要求應包括智能體的實際解釋及其所應用的指令,以便事后問責審查不僅能評估做了甚麼,還能評估理解了甚麼。
另一種選擇——無聲解析歧義並只生成顯示表面形式合規的審計記錄的智能體——是一種問責架構,其中最關鍵的解釋判斷由智能體做出,且未被記錄在任何地方。當這些判斷偏離委託人意圖並造成傷害時,委託人和審計日誌都將顯示清白。語義差距就是它們之間的空間。
自然語言指令包含 AI 智能體行動時必須解析的歧義。智能體在無聲中解析該歧義,而不向發出指令的委託人呈現其解釋。當智能體的理解偏離委託人意圖時,產生的行動在形式上被授權但實質上是錯誤的——審計日誌和委託人的記錄都不反映這種偏差。在密碼遷移中,這一差距可能意味着選擇了滿足合規標籤但未達到底層安全意圖的算法。在機隊管理中,意味着與指令逐字匹配但恰好在偏差最重要的新穎條件下偏離操作員意圖的維護行動。在物理世界護理中,意味着護理智能體按照自己對"痛苦"的解釋而非護理團隊的解釋進行監控。高風險智能體部署的問責架構必須要求智能體在對重要决策採取行動之前呈現其實際解釋,並將該解釋與指令一同記錄——使意圖與理解之間的差距在記錄中可見,而非在設計上不可見。