反事實問責問題:當替代結果不可觀察時
對 AI 智能體的問責要求建立因果關係。因果關係需要反事實:如果智能體採取不同行動會發生什麼?該反事實不可觀察。這不是證據缺口,而是問責框架本身的結構性缺口。
人類機構中的問責制建立在一個因果前提之上:被追責的一方必須已經造成了損害,或者在有義務且有能力阻止時未能阻止。侵權法、專業執照、組織治理都要求回答同一個問題的某種版本:該行為或不作為,是否以原本不會發生的方式產生了該結果?「原本」就是反事實。而在大多數涉及 AI 智能體的問責程序中,反事實在結構上是不可觀察的。
這在哲學上不是新問題。但當 AI 智能體在問責具有實質分量的領域運作時,即誰或什麼對某一結果負責的問題具有法律、臨床或安全後果時,它就成了一個實際的工程和治理問題。當這些智能體部署在三個交叉點時,反事實問題以現有框架無法處理的獨特形式出現。
為什麼因果關係需要反事實
考慮最簡單的情況:一個 AI 監測智能體未能標記病情惡化的患者。患者病情惡化了。智能體負有責任嗎?要嚴格回答這個問題,需要知道如果智能體標記了這種情況會發生什麼。護理人員會及時響應嗎?他們的干預會有效嗎?患者會康復嗎?這些都無法觀察。你需要與之比較的那個世界,即智能體正確行動的那個世界,並未發生。
相反方向也呈現出同樣的結構。一個 AI 智能體標記了一個異常。護理人員作出響應。患者病情穩定了。智能體對這一良好結果負有責任嗎?同樣,不知道反事實就無法判斷:如果智能體什麼都沒有標記會發生什麼?也許護理人員本來也會獨立注意到異常。也許病情穩定與干預無關。智能體因一個無法以問責所要求的精度歸因於它的結果而獲得功勞或受到譴責。
人類問責框架對此有一個由來已久的解法:實踐標準。問責程序不是問專業人員的行為是否導致了結果,而是問該行為是否符合同等情況下合理專業人員所應遵循的標準。這用程序性檢驗代替因果檢驗,將問題從「它是否導致了這個?」重定向為「它是否做了應該做的?」從而繞開了反事實。
AI 智能體在其大多數部署領域中還沒有確立的實踐標準。當問責程序轉而尋求因果論證時,它們就遇到了反事實之牆。結果不是問責,而是在無法解決的證據缺口上營造問責的表象。
在照護交叉點
在照護場景中,反事實問題最為尖銳,因為其結果在臨床上錯綜複雜,受患者狀況干擾,且往往無法恢復。一個未能上報病情惡化患者的照護智能體,無法針對反事實結果進行評估,因為那條時間線不存在。回顧性臨床審查可以形成關於上報是否有幫助的專家意見,但關於未觀察反事實的專家意見,是薄弱的問責證據基礎。
更深層的結構性問題是,照護場景會累積許多這樣的時刻。在長期部署中服務許多患者的智能體會生成決策和結果的統計記錄。在總體層面上,該記錄可以支持比較分析:在控制患者嚴重程度的情況下,配置 A 的智能體產生的結果分佈與配置 B 是否不同。群體層面的反事實在個體反事實不可見之處變得可見。但照護場景中的問責通常關於影響特定患者的具體決策,而非整體績效。群體數據無法解決個體因果歸因。
在硬件交叉點
在大規模硬件部署中,反事實問題呈現出不同形式。一個監測設備認證的 AI 智能體未能上報一個後來被識別為協調固件攻擊早期信號的異常。數百台設備最終受到影響。智能體負有責任嗎?
因果問題需要知道:如果智能體上報了異常,安全運營會響應嗎?響應會及時嗎?對這個特定威脅向量有效嗎?該因果鏈中的每個環節都是反事實的。實際上,異常未被上報,響應未發生,損失無法與替代時間線進行比較。
硬件安全團隊在這種情況下實際做的是重建意圖:他們詢問智能體是否執行了其設計功能、警報標準是否配置得當,以及附屬於智能體的操作流程是否合理。這接近於實踐標準檢驗。但它被追溯性地應用於一個因果問題,「智能體執行了其設計功能」與「智能體導致了這一結果」之間的差距從未完全彌合。
在後量子交叉點
後量子過渡創造了反事實問題的一個特別延伸的時間版本。遷移窗口期間作出的決策,首先遷移哪些密碼原語、以什麼順序、使用什麼驗證閾值,將決定對可能在數年後才實現的威脅的暴露程度。一個將遷移期間的驗證異常歸類為常規噪聲的 AI 智能體,可能正在助長一個在量子計算能力對對手可用之後才被利用的漏洞。因果鏈跨越數年,而反事實在這個時間跨度內變得無法重建。
這種延伸的時間差距從根本上改變了問責核算。使用問責作為學習機制的組織和治理機制,在因果鏈太長無法追溯時失去了這一機制。通常能收緊安全實踐的反饋迴路被打斷,不是因為任何單一失敗,而是因為反事實在結構上無法取得。
反事實問題的要求
答案不是放棄因果問責,而是設計 AI 智能體部署,主動生成使反事實推理可處理的證據條件,即使不能完全解決。
這意味著不僅要記錄智能體的決策,還要記錄決策時刻它感知到的內容:輸入、置信水平、它評估的替代行動,以及觸發不同響應的閾值。一個只記錄輸出的智能體產生的審計追蹤無法支持反事實推理。一個記錄其決策狀態的智能體,包括什麼會改變其決策,創造了提問的證據基礎:鑑於智能體所知道的,不同配置會產生什麼結果?
這也意味著設計明確說明何時使用程序性檢驗而非因果檢驗的問責框架。如果核心問題是「智能體是否符合適用的實踐標準?」那麼該標準需要在智能體部署之前存在,而不是事後構建以適應被審查的結果。AI 智能體的實踐標準必須提前指定,並以可以針對智能體實際產生的決策狀態日誌進行評估的方式表述。
反事實無法被觀察。但它可以變得不那麼難以觸及,只要審計架構從一開始就被設計為捕捉替代方案所需要的內容。
問責需要因果關係,而因果關係需要反事實。AI 智能體在高風險領域行動時,替代時間線不可觀察。架構應捕捉決策狀態、替代行動和會改變輸出的閾值,並在部署前指定實踐標準,使問責可以在必要時以程序性而非純因果性方式評估。