治理者的治理問題:當AI智能體審計AI智能體時的問責困境
多智能體架構越來越多地將AI審計方置於AI執行體之上。當審計方本身也是模型時,問責結構並未得到加强——它只是被推後了一個層級,關聯失效可能在無人察覺的情况下發生。
當一個AI護理系統發生故障時,第一反應是追問:監督結構是什麼?如今,這個問題诚實的答案往往是:監督本身就是AI。審查隊列由一個模型完成分類,合規摘要由一個模型生成,本應被標記的異常在到达任何人工審查者之前已被一個模型過濾。作出關鍵決策的AI執行體被一個AI過程所審查——而這個審查的失效,正是問責缺口所在。
這就是"治理者的治理問題":在AI智能體被委托監督其他AI智能體的系統中,審計方的屬性是被假定的而非被驗證的,問責因此陷入困境。
AI中介監督的結構性吸引力
以AI監督AI的逻辑是直接的。人工審查高頻、快節奏的智能體系統已然捉襟見肘。AI審計方可以檢查每一個決策、识別異常、以無可比拟的規模生成結構化的合規報告。如果AI執行體每天作出一千個決策,AI審計方就能為這一千個決策生成摘要——持續、不疲倦、邊際成本低廉。
結構性問題在於:這並没有解決監督挑戰,只是將其推後一步。AI審計方本身也是一個模型,有其自己的校準方式、分佈假設,以及自己出错的方式。在AI執行體之上增加一個AI層,並不能增加獨立性——它只是增加了另一個模型。問責鏈條變長了,但並没有變得更穩健。
關聯失效風險
監督的獨立性不仅仅是一项形式要求,它是一项功能要求。對AI決策持異議的人工審計者,带來的是不同的先驗知識、不同的觀察歷史和不同的失效特征。而當AI審計方對AI執行體持異議時,它可能是在捕捉真實錯誤,也可能只是將一個略有不同但同样存在偏差的模型應用於相同的決策空間。
在供應商提供全棧系統的護理部署中,AI執行體和AI審計方可能共享訓練譜系、特征詞彙,以及對"正常"交互應當如何的共同假設。最有可能错過執行體錯誤的審計方,正是那個被训練為识別相同模式的審計方。關聯失效——两個系統朝同一方向出错——從結構上而言比獨立失效更危險,因為它能生成一個一致、內部连贯的問責記錄,而這份記錄显示不出任何異常。日誌是幹净的,两個系統意見一致——两者都是错的。
這在結構上類似於模型單一文化問題,但作用於問責層而非运營層。問責層的關聯失效比运營層的關聯失效更糟糕,因為它消除了檢測两者失效的機制。
後量子密碼架構的啟示
在安全關鍵系統中,治理者的治理問題有一個直接的結構類比。一条驗證鏈——簽名被校驗以對應背書證書,背書證書再對應信任根——與AI監督鏈具有相同的拓扑結構。每一層都將驗證委托給下一層。如果任何一層在登記時被錯誤配置,這条鏈可能表面上运作正常,却無法提供任何真實的保證。
後量子密碼遷移以一種新的方式揭示了這一點。當某一層所依赖的底層原语在密碼學上被弱化,建立於其上的每一層也随之被弱化——包括負責驗證的那些層。一条依赖被損害的審計模型的AI問責鏈類似於此:簽名記錄存在,驗證通過,證據在結構上完好——只在整条鏈斷裂的那個點上除外。
硬件根信任提供了一個應對模型。安全飛地中的信任錨是运行於其上的軟件無法證明或伪造的东西。應用於AI問責,這意味着監督鏈必须始终終止於AI被治理系統本身無法塑造的某處:一個未經AI過濾的人工審查、一個具有獨立訓練譜系的第三方審計,或一条完全路由於模型棧之外的升級路径。
正確架構的要求
解決治理者的治理問題需要显式設计,而非假定自然涌現。問責鏈必须明確在哪些環節需要獨立性——不仅仅是在哪些環節存在監督。AI審計方審查AI執行體,這是監督。但這不是獨立性,除非審計方的校準方式、训練數據和失效模式可以被核實,與其所審查系統存在可問責的差異。
在實踐中,這意味着護理部署應當記錄:提供了哪些AI監督,AI審計方的谱系和校準依據是什麼,以及升級路径中第一個真正非AI的節點在哪里。這意味着構建能够被審計審計方绩效的系統——以獨立輸入,而非仅以其所審查執行體的輸出為依據。這也意味着抵制全棧AI合規的便利性:自动生成完整問責記錄的吸引力,恰恰是使關聯失效變得不可見的那個屬性。
在Asaptic Labs,我們認為正確的框架不是"這個決策是否被審計",而是"審計本身是否可被審計,且是否由具有獨立失效模式的對象进行"。治理者的治理問題,不是通過在其上增加另一個AI層來解決的。在某個節點,這条鏈必须終止於一個AI被治理系統本身無法塑造、證明或損害的問責基础——正是在那個節點,真正的監督才开始。
以AI審計AI是對問責問題的推遲,而非解決。當AI執行體與AI審計方共享訓練譜系或分佈假設時,關聯失效可以生成一份幹净、內部一致的記錄,從而掩蓋系統性錯誤。穩健的問責要求監督鏈終止於真正獨立的某處——一個被治理AI系統本身無法證明、塑造或損害的節點。鏈條中每一個仅由模型構成的環節,增加的是長度,而非獨立性。