← 返回博客
× 後量子安全 · × 硬體 · × 物理世界護理

溫備用問題:當AI智能體的核心行動在生產中幾乎從不發生時的問責

許多物理世界AI智能體並非為持續行動而構建,而是為在特定罕見條件下進行干預。針對始終在線智能體設計的問責框架——持續審計追蹤、定期行為測試、持續監督——在被應用於其核心行動可能數月乃至數年不發生的系統時,會發生結構性崩潰。

Asaptic Labs 2026-06-14 5 分鐘閱讀

AI智能體的問責框架基於一種熟悉的運營模式:智能體持續行動,其輸出積累為審計追蹤,該追蹤定期接受審查以評估智能體是否在授權範圍內運作。這種模式以穩定的行動狀態為前提,適用於安排日程、處理交易或監控感測器資料的智能體。但對於另一類實踐中更為關鍵的部署,它幾乎完全失效:即溫備用智能體。

溫備用智能體被設計為在正常條件下保持非活躍狀態,僅在特定觸發條件出現時進行干預。硬體安全聯鎖裝置會在感測器讀數超過閾值時中止流程。後量子金鑰託管系統僅在主金鑰被確認遭到攻擊時才會釋放備份金鑰材料。照護環境中的跌倒偵測智能體可能被動監測數月,在居民跌倒時在數秒內採取行動。觸發事件可能極為罕見,但一旦觸發,風險絕不輕微。

結構性問題在於:你無法從未發生的行動中建立問責記錄。溫備用智能體在正常運營期間的審計追蹤是否定事件的日誌——智能體檢查了條件,未發現觸發事件,未採取任何行動。該記錄僅能證明智能體在運行,卻對智能體在觸發事件真正發生時是否會正確行動只字未提。從未經歷真實條件測試的智能體與通過測試的智能體持有相同的認證。問責框架無法區分兩者。

模擬測試的陷阱

針對這一問題的標準應對方案是分級測試:在受控環境中引入合成觸發條件,觀察智能體是否做出正確響應。分級測試優於無測試,對某些智能體而言也是唯一可用的方法。但它引入了自身的問責缺口。合成觸發事件不是真實觸發事件。智能體可能對精心設計的合成事件做出正確響應,卻在真實觸發事件中失敗——因為真實事件可能伴隨著測試環境未能預測的雜訊、歧義或並發條件。通過分級測試是基礎能力的證據,而非在智能體將最終面臨的全部條件分佈下可靠運行的證據。

更糟糕的是:分級測試必須有計劃地安排,這意味著智能體的運營者知道測試的發生時間。持續被觀察和修改的智能體可能會無意間針對測試場景進行調優,而非針對真實部署群體。問責記錄充滿了成功的分級測試,而真實的觸發條件群體——未被觀察、未被採樣,且可能比測試庫預期的更具挑戰性——仍然缺乏表徵。

後量子安全交叉點

後量子金鑰管理系統通常包含溫備用組件:備份金鑰儀式、託管釋放機制、災難恢復密碼路徑。這些組件被設計為在主系統發生故障或遭受攻擊時運行——在管理良好的機構中,這些事件幾乎不應該發生。主系統的問責架構相對簡單明瞭:它持續運作,其輸出可以測試,其行為可以對照已知輸入和預期輸出進行審計。備份系統的問責架構則在結構上更為薄弱。它可能在部署時和定期間隔時接受過測試,但如果金鑰妥協事件發生在備份系統設計者未建模的情境中,測試與真實事件之間的差距正是問責失效的所在。

硬體交叉點

工業和基礎設施嵌入式AI智能體通常包含按設計採用溫備用方式的安全聯鎖功能。聯鎖裝置極少觸發,一旦觸發,其採取的行動——中止流程、觸發警報、隔離部件——是立即且物理性的。聯鎖裝置持續監測功能的問責架構是可管理的:感測器讀數、閾值比較和結構化事件日誌。聯鎖裝置干預功能的問責架構則更為困難。聯鎖裝置的干預邏輯已針對有限的條件樣本進行了測試,而在二十年部署期內將遇到的真實故障條件分佈是未知的。當聯鎖裝置最終觸發時,它將基於可能未在接近實際觸發情境下驗證過的邏輯運行。觸發前的審計追蹤對干預功能本身的就緒狀態沒有任何記錄。

物理世界照護交叉點

照護AI部署以最直接的形式呈現了溫備用問題。在夜間監測體弱居民的跌倒偵測智能體幾乎每晚都在做同樣的事:觀察、未偵測到顯著情況、記錄平靜的班次。在發生跌倒的那個夜晚,智能體的干預——觸發警報、啟動上報、視情況激活緊急響應——是整個部署的根本理由。居民、照護運營者和監管框架都假設智能體在那一刻能夠正確行動。但智能體的問責記錄幾乎完全建立在沒有發生跌倒的夜晚上。審計追蹤證明了智能體的在場和專注,卻幾乎沒有提供證據說明真正重要的部分——干預邏輯——在需要時能否正確運行。

一個已部署十八個月但未發生跌倒事件的照護智能體,可能已以影響其干預邏輯的方式發生了漂移。韌體更新、模型調整和環境變化可能改變了它處理與跌倒相關的特定訊號模式的方式。這些在平靜夜晚的審計追蹤中均不可見。問責架構反映的是一個曾經準備好行動的智能體,卻無法反映智能體是否仍然準備好行動。

溫備用問題的解決要求

解決這一缺口需要專門為低頻干預智能體而非持續運營智能體設計的問責實踐。這包括:在規定的時間間隔使用比原始測試集更廣泛的場景庫對干預邏輯進行獨立驗證;對測試條件與智能體可能遇到的真實條件分佈之間差距的結構化分析;明確記錄智能體尚未經過測試的內容;以及治理要求,將真實觸發事件之間的長期間隔本身視為問責風險,而非視為未出現問題的證據。

溫備用智能體安靜的審計追蹤並不令人放心,它是關於唯一重要功能的證據缺失。在Asaptic Labs,我們在智能體被設計為低頻但高後果干預的每個交叉點,都將溫備用問責視為獨立的設計問題。此類智能體的價值不在於它已做了什麼,而在於它隨時準備好做什麼。問責必須反映這一區別。

核心觀點

被設計為僅在罕見高風險條件下進行干預的AI智能體——安全聯鎖裝置、金鑰託管系統、照護緊急響應裝置——積累的審計追蹤記錄了持續監測,卻幾乎沒有提供關於其干預邏輯就緒狀態的證據。為持續運營智能體構建的標準問責框架無法適用於溫備用部署。分級測試結果與真實世界可靠性之間的差距在傳統審計中結構性地不可見。解決這一問題需要對干預邏輯進行基於時間間隔的獨立驗證、記錄未採樣的條件空間,以及明確的治理措施,將真實觸發事件之間的長期間隔視為問責風險而非運營成功。