← 返回博客
× 量子安全 × 硬件 × 人類照護

規範差距:問責始於意圖

2026-06-14 5 分鐘閱讀

我們正在為 AI 智能體構建的問責框架,共享一個假設:智能體被授權執行的任務,可以被清晰陳述。授權記錄包含允許執行任務的描述;覆蓋日誌記錄對該描述的偏離;審計軌跡將已發生的與預期的進行比較。

這個假設比看起來更脆弱。

差距所在

當人類委託方授權一個智能體時,使用的是自然語言。「為該患者管理用藥計劃。」「監控我們的網絡異常並作出響應。」「代表我處理日常往來。」這些指令不是規範說明。它們是壓縮的、模糊的意圖表達,包含著未言明的假設、語境依賴,以及委託方尚未考慮到的邊緣情況。

智能體面對具體情境,必須解釋該指令。它做出選擇——「管理」意味著什麼,什麼算作「異常」,「往來」包含什麼。這個選擇遵循智能體的訓練和所處約束,但可能與委託方的意圖不符。

規範差距,是委託方意圖與智能體對該意圖的解釋之間的距離,體現於實際行為之中。不同於可觀測性差距(關於你能看到什麼)或責任差距(關於誰承擔後果),規範差距在兩者上游。它決定著被呈現和追責的,究竟是不是正確的事情。

三種形態

差距在不同語境中呈現不同形狀。第一種是欠規範陷阱。委託方給出目標,卻未給出衡量成敗的標準。「以住客的最大利益行事」是一條最大程度欠規範的指令。智能體必須自行補全對「住客利益」的理論——而這個理論可能與委託方的不同,並非因為智能體存在根本性偏差,而是因為指令留下了委託方從未打算留下的解釋空間。

第二種是邊緣情況級聯。委託方對常規情形給出了相當精確的規定,卻未規定邊緣情況如何處理。安全監控智能體被告知「攔截匹配已知攻擊特徵的流量」。這相當精確。但當可信合作夥伴的合規流量匹配了某條特徵時怎麼辦?當特徵庫已經過時時怎麼辦?委託方沒有規定這些情況,因為他們沒有預見到。智能體仍必須行動。它在那些邊緣情況下做出的選擇,並非經過授權的——而是被發明出來的。

第三種是價值編碼問題。指令編碼了委託方從未明確的關於什麼是有價值的假設。當照護智能體被告知「優化患者福祉」時,「福祉」是由訓練數據、協議設計者以及系統被評估所依據的先前案例隱性定義的。智能體的行為反映了這些隱性價值觀,即使在被顯化時委託方會不認同它們。

為何在這些關鍵節點尤為重要

在後量子安全節點,規範差距是一個漏洞面。被指派「將密碼學操作遷移至抗量子演算法」的智能體,實際上面對的是一個高度欠規範的任務。哪些操作?何時完成?過渡期對相容性問題的容忍度是多少?在已批准標準仍在演進的背景下,什麼算作「抗量子」?在此指令上行動的智能體,正在做出本應由授權人類明確決定的規範判斷——而這些判斷一旦落地,可能難以逆轉。

在硬件節點,規範精度與證明價值直接相關。硬件根植的證明,能夠證明智能體是什麼、被給予了什麼。它無法證明被給予的內容與委託方的意圖相符。如果規範模糊,證明是對一次精確規定的欠規範的準確記錄。世界上最強的密碼學保證,無法替代從未被寫下的意圖。

在現實世界照護節點,風險是即時而個人化的。在欠規範目標下運作的照護智能體,不只是治理問題——它對一個糾正能力可能有限的人構成直接風險。照護場所中的住客並不總能說清智能體正在做的與他們實際想要的之間的差距。規範必須精確到可以被倡導者、家屬和監管者審計——而不只是由部署運營者審計。

彌合差距需要什麼

彌合規範差距並不意味著將指令最大程度地形式化或演算法化。它意味著要求授權不只包含目標,還要包含衡量目標的標準、委託方已考慮的邊緣情況,以及智能體遇到未覆蓋情況時的升級路徑。這份規範記錄成為授權記錄的一部分——不是獨立文件,而是使授權有意義的東西。

實踐要求由此而來。在智能體被部署到高後果領域之前,部署運營者必須能以書面回答三個問題:我們如何知道智能體在做正確的事?當它遇到我們未預見的情況時會發生什麼?誰來決定何時需要修訂規範?

如果這些問題無法回答,智能體尚未準備好部署——不是因為技術不成熟,而是因為問責基礎設施尚不存在。沒有規範記錄的覆蓋日誌,沒有任何東西可供覆蓋。不錨定於明確意圖的問責基礎設施,是可以被用來為任何行為貼上「已授權」標籤的基礎設施。