幻覺問責缺口:AI智能體在物理世界基於自信的虛假資訊採取行動時的問責機制
一個護理智能體收到關於患者藥物相互作用的問題。它給出了自信、完整、卻錯誤的回答。家屬遵循了這一指導,造成了傷害。誰應當為此負責?
這就是幻覺問責缺口:當AI智能體基於自信陳述但缺乏事實依據的資訊,在物理世界中採取後果性行動時,該行動的責任以標準問責框架無法解決的方式被結構性地分散。
缺口的結構
幻覺不是欺騙。產生虛假資訊的AI智能體並未違反其授權範圍——它沒有超出許可範圍、沒有違反指令、也未被篡改。它完全按照授權運行,只是出錯了。
這產生了一個根本性的問責難題。構建模型的開發者不對特定的虛假輸出負責——模型是按最佳可用標準訓練的。配置智能體的部署者不負責——配置是正確的。批准部署的運營方不負責——批准是適當的。智能體本身沒有作為問責方的資格。然而傷害發生了。
這一缺口的存在,是因為問責框架建立在授權之上:誰許可了什麼,誰在這些許可範圍內或之外行動,誰本應阻止。幻覺之所以能鑽空子,是因為它是經過授權的行為產生了未經授權的後果。問責鏈上的每一方相對於其角色都行動正確,結果依然出錯。
後量子安全交叉點
後量子密碼學處理AI系統的完整性和真實性。硬件證明可以驗證模型權重未被篡改、執行環境是部署者授權的那個,以及輸出是由主體意圖部署的系統簽名的。這些都無法解決事實準確性問題。
一個經過完美證明的模型可以以完整的密碼學完整性產生自信的虛假輸出。對輸出的簽名確認這個授權系統產生了這個輸出——而非該輸出是正確的。後量子信任基礎設施回答關於身份和完整性的問題;它不回答關於真相的問題。向量子抗性密碼學的轉型強化了系統每個層級的問責架構,唯獨不包括生成主體實際依據的內容的那一層。
這不是對後量子證明的批評——這是關於密碼學驗證能達到什麼範圍的結構性觀察。為物理世界部署而設計的系統必須明確處理兩個層級,而不能假設完整性意味著準確性。
硬件交叉點
硬件信任根確立執行模型的系統是主體部署的那個,以及其軟件未被修改。它們不約束模型能說什麼。硬件邊界保證執行完整性;語義邊界——模型可以真實斷言什麼——不是硬件屬性,也不適合通過硬件強制執行。
這對物理AI部署產生了重要影響。一個嵌入醫療監控基礎設施、樓宇管理或輔助照護設備的系統,擁有已驗證的硬件證明鏈卻產生了自信的虛假事實輸出,從問責角度而言,與證明鏈已被破壞的系統同樣有問題。傷害是相同的。責任方在結構上不同,針對每種故障模式可用的問責工具也不可互換。
硬件證明告訴你正確的系統產生了輸出。幻覺問責缺口關於的是當正確的系統產生錯誤輸出時該怎麼辦——而在大多數已部署架構中,目前的答案並不清晰。
物理世界照護交叉點
照護環境對幻覺問責缺口特別脆弱,原因很具體:AI照護智能體通常是其服務對象的權威資訊來源。家庭成員向照護AI詢問藥物相互作用、跌倒風險閾值或照護方案,可能沒有實際可行的獨立驗證手段。智能體自信的回答即使不正確,也被當作真相。
這種脆弱性因照護環境的人口學現實而加劇。年長者和認知能力下降的人不太可能質疑AI的自信斷言,不太可能尋求第二個資訊源,也不太可能認識到自信的輸出在事實上是錯誤的。傷害到達了最不善於發現和糾正錯誤的群體。在問責鏈上任何人獲得干預所需資訊之前,問責主張就已經積累。
照護AI還嵌入在人工覆蓋能力結構性受限的場景中。夜間照護情境、醫療緊急時刻、認知插曲期間的決策點——這些恰恰是AI智能體最有價值的場景,也是缺少人工驗證者最關鍵的場景。幻覺問責缺口在最重要的時候恰好最大。
邁向問責的回應
幻覺問責缺口無法通過任何現有的責任歸屬來解決。問責回應需要當前部署中很少包含的結構性要素。
第一是輸出點的認識論標注。在高風險物理場景中運行的AI智能體,應區分檢索已驗證、有來源的資訊,與從模型推斷生成輸出。這一區別並非總能以完美精度實施——但這一嘗試改變了輸出造成傷害時的問責主張。按認識論類型標注輸出的智能體,創建了關於其所斷言和未斷言內容的記錄。不這樣做的智能體,將這一區分完全留給了事後重建。
第二是針對後果性輸出的強制驗證渠道。在照護環境中,涉及醫療、安全或法律事項的AI智能體輸出,在採取行動前應觸發驗證步驟——由回路中的人工干預,或由具有不同模型譜系的第二個系統。驗證門中假陰性的代價,低於自信的假陽性到達未經驗證的照護對象的代價。
第三是模型層面的事件歸因存檔。當虛假輸出造成傷害時,應將模型版本、提示、存在或缺失的檢索來源以及完整輸出作為結構化證據保存。這不能解決誰承擔責任——這需要目前尚不存在的規範性共識——但使責任歸因可調查,而非在結構上被掩蓋。無法在事後重建的問責,只是名義上的問責。
在Asaptic Labs,幻覺問責缺口被視為在三個交叉點任一處運行的AI智能體的頭等問題。密碼學完整性和事實準確性是正交屬性。一個完整性已驗證而輸出錯誤的系統,通過了證明所能提供的每一項測試,卻在物理世界中最重要的那項測試上失敗。在不可逆後果的節點上,針對這一缺口進行設計不是可選項。
幻覺問責缺口之所以存在,是因為標準問責框架建立在授權之上,而幻覺恰恰是經過授權的行為產生了未經授權的後果。後量子證明和硬件信任根驗證系統完整性,而非語義準確性——這是正交屬性。在物理世界照護場景中,這一缺口在最重要的地方最為突出:夜間、緊急情況下,以及最不善於識別自信陳述的謬誤的群體中。彌合這一缺口需要在輸出層——認識論標注、驗證渠道和存檔歸因——進行結構性響應,而不僅是在身份和完整性層。