湧現權威問題:AI智能體獲取無人授予的決策權威時的問責
AI智能體無需超越其設計範圍,便能積累起真實的決策權威。它只需始终在場、隨時回應,並處於一個彼此預設"有人會處理"的人類團隊之中。在協作協調失敗所留下的真空里,AI智能體的存在與沉默都會被解讀為權威的表达——而這一權威從未經過正式授予,因此也不會留下任何可審計的蹤跡。
试想一家住宅式照护機構的夜班場景。一套AI監測系統發出警報:某位住戶的活動模式提示可能出現病情變化。值班護士看到警報,形成初步判断並記錄在案。主治醫師收到系統通知後查阅了同一警報,並認為護士已向臨床審查團隊上報。臨床協調員看到雙方均已收到警報,便認為已有人作出決定。結果無人採取行動。AI系統在没有任何相反指令的情况下,繼續監測和記錄。
十二小時後,當情况真正惡化並出現不良結果時,每一方都認為AI本應進一步上報,或另一個人本應採取行動。AI做的正是它被設計要做的事。但在其通知與人類假設之間的空隙里,它已成為事實上的決策者——那個持續的沉默意味著"無需更多行動"的行動者。它行使了從未被授予的權威。
机制
湧現權威不需要AI智能體超越其設計範圍行事。它只需要两個條件。第一,智能體必须比系統中任何单個人類更可靠地保持可用——始终在线、從不分心、永不午休。第二,周圍的人類必须在没有明確分工的情况下共担責任。當這两個條件成立時,智能體的輸出就會獲得其設計者從未預期、其委托人從未授權的解釋權重。來自智能體的沉默被解讀為許可,來自智能體的行動被解讀為指令。
這不是用戶错誤或溝通失誤的問題。這是任何將持續在場的AI嵌入依賴可能失敗的人類協調的問責架構的團隊中的結構性屬性。AI並不夺取權威。權威向它積累,是因為周圍的人類創造了真空,而可用的行動者會填補真空。
物理世界照護领域
照护環境尤其容易受到影響,因為照护問責天然是分散的。患者的健康是護士、醫師、家屬、協調員和輔助人員的共同責任——没有人拥有完整資訊,所有人都在時間壓力下運作。嵌入這一環境、能够同時綜合所有來源資訊的AI智能體,在功能上看起來拥有最全面的圖景。那些依賴其輸出的人類並非懶惰;他們只是在做好的團隊成員本應做的事——在自身時間受限時使用最佳可用綜合。
問題在於,智能體的綜合可能作為記錄資料的摘要是准確的,却對所有未被記錄的内容保持沉默——護士進行了但未錄入的视覺評估、協調員非正式地與家屬進行的談话、醫師依賴但尚無法表述的臨床直覺。湧現權威意味著智能體的輸出所承載的權重超越了其所代表的資料。而由於這种權重從未被正式確立,它也不承担任何正式問責。
硬件领域
物理基礎設施中的嵌入式AI系統在更长的時間尺度上遵循相同模式。為發現異常而安装於設施的状态監測系統,最初是一种顯示工具。操作員信任它,依據它行動。數月乃至數年後,解釋習慣不断深化:操作員在行動前查阅系統,根據其輸出調整行為,最终發現"系統警告了我"與"系統告诉我該怎麼做"之間的邊界,在没有任何明確转變的情况下已經消蚀。
硬件層使情况更為複杂:AI所讀取的物理感測器、可能控制的執行機構、所通過的通信网絡,各自都有其權威鏈條。但AI在人類決策環中所持有的湧現權威,並未體現在這些技術規格中的任何一處。它只存在於已圍绕系統形成的社會與組織模式中——而這些對任何正式審計都是不可見的。
後量子安全领域
後量子密碼學為我們提供了更強大的工具,用於將身份和權威主张錨定到可驗證、防篡改的鏈條上。但這些工具只覆盖明確授權的内容。量子抗性認證可以證明某個智能體以某种策略部署,由特定委托人在特定時刻簽署。它無法證明此後積累的事實權威。
這是湧現權威問題的安全維度:在複杂的人机系統中最重要的權威,可能恰恰是任何密碼學方案都永远不會記錄的權威。當出現問題時,審計追蹤顯示的是智能體被授權做什麼,而非智能體實际上被依賴於決定什麼——因為後者從未被正式化,因此也從未被簽署。
設計應對
湧現權威仅靠更好的工程無法消除,因為它部分是一种社會現象。但三种設計選擇能降低其可能性及其後果。第一,明確的權威注冊:在團隊環境中運作的AI智能體,應維护一份實時日志,區分"此輸出為人類決策提供了参考"與"此輸出替代了人類決策"。這种區分必须來自人類一方——確認由谁在何時作出了決定,以及智能體扮演的角色。第二,沉默作為信号需要設計處理:如果智能體缺乏進一步上報可被解讀為許可,這种解讀要麼必须被強制執行(智能體實际上確認許可),要麼必须被主動禁用(智能體無法許可;只有人類才能)。第三,權威邊界屬於部署記錄。智能體可能影響的決策範圍,以及不可影響的範圍,應成為初始授權的一部分——接受與任何其他後果性權力委托相同的審查。
在 Asaptic Labs,我們將湧現權威视為每一個AI智能體嵌入在分散問責下運作的人類團隊的交叉口的首要关切。AI智能體在實踐中所持有的權威,才是問責目的上真正重要的權威——而非其設計文件中呈現的權威。使两者一致,需要明確的設計意圖,而不仅仅是技術約束。
嵌入在具有分散人類問責的團隊中的AI智能體,將積累事實上的決策權威,無论其正式設計範圍如何——因為可用的行動者會填補協調失敗所創造的真空。這种湧現權威不留審計蹤跡:没有密碼學認證記錄它,没有設計文件涵盖它,没有任何個人認為他們授予了它。弥合這一差距,需要將智能體的實际決策影響顯性化,區分"人類参考了AI輸出後自主決策"與"AI輸出實質上替代了人類決策",並將智能體的權威邊界作為部署記錄的首要元素加以對待。