閾值問題:智能體自主權無聲擴張時的問責
閾值是輔助型智能體與決策型智能體之間的分界線。在閾值的一側,智能體呈現建議、標記或上報——由人類行動;在另一側,智能體直接行動,無需人類介入。這條線的位置是任何智能體部署中最關鍵的屬性之一:它決定了誰對哪些決策負責、適用哪些監督機制,以及授權記錄在哪裡結束、智能體自主判斷在哪裡開始。
大多數閾值位置並非經過明確設計,而是自然湧現的。一個被授權監控並上報異常的智能體,其隱性閾值由檢測模型的敏感度、產生的上報量以及接收上報的人類團隊對誤報的容忍度共同決定。這些輸入都不出現在授權記錄中。閾值是部署設計的副產品,而非其明確聲明的屬性。
閾值漂移是指閾值位置隨時間變化,但沒有相應的授權決策。最常見的機制是營運壓力:上報量超過人類團隊的審查能力,於是提高閾值以減少負荷。第二種機制是信任積累:智能體的輸出被證明可靠,營運方變得放心地讓更多決策無需審查而直接通過。第三種是模型更新:隨著底層模型被重新訓練或微調,置信度評分發生變化,即使閾值本身未改變,閾值位置也隨之移動。
每一種機制單獨看都是可以辯護的。降低誤報上報率是良好的工程實踐;對經過驗證的智能體擴展自主權是合理的信任管理;改進模型是維護工作。但它們共同產生的結果是:智能體的實際自主範圍遠比部署時經過審查和授權的範圍廣泛。沒有單一決策擴大了智能體的權限——擴張發生在決策之間的間隙中。
後量子安全交叉點
管理密鑰輪換的智能體依據一個閾值運作,決定何時自主行動、何時將輪換排入人工審查隊列。部署時,閾值可能被設定為:常規輪換自主進行,而影響信任錨點、跨域密鑰材料或效期較長的證書的輪換則需要審查。隨著時間推移,「常規」的定義逐漸擴大。智能體已自主完成數千次輪換且未發生事故;營運方接受其判斷的對象越來越重要。閾值漂移了。最終,智能體自主輪換的密鑰材料,正是原始授權設計中要求人工審查的那類——不是因為有人決定授予那項權限,而是因為沒有人決定維護排除它的邊界。在後量子遷移情境下,這尤為關鍵:密鑰輪換決策的後果長期存在,而在遷移關鍵密鑰交換上漂移的閾值,可能已將自主權轉移給從未就該範圍接受審查的智能體。
硬件交叉點
物理世界中的智能體——機器人系統、環境控制智能體、機隊監控系統——在建議與行動之間的閾值直接影響物理後果的領域中運作。被授權在檢測到患者處於困境時向人工護理員發出警報的護理機器人助手,有一個在警報與嘗試自主物理干預之間進行選擇的閾值。該閾值位置至關重要——它決定了人類是否處於決策回路中。硬件部署中的閾值漂移特別難以察覺,因為它可能體現在上報延遲而非上報缺失上:先嘗試簡短的自主干預,失敗時才上報。審計記錄依然顯示有上報事件,但閾值已經移動——記錄的是上報事件,而非閾值位置。
物理世界護理交叉點
為營養、藥物時機或護理方案提供建議的護理智能體,依據區分臨床建議與臨床決策的閾值運作。部署時,智能體可能被授權標記偏離護理計劃的情況而不採取行動——標記是自主的,對標記採取行動需要合格臨床醫生參與。隨著時間推移,最常規的標記以可預測的方式被一致解決;營運方認為智能體的標記足夠可靠,臨床醫生的審查步驟已流於形式。閾值漂移了:智能體開始構建預先解決的標記——建議中包含如此具體的擬議行動,以至於接受標記在功能上等同於接受行動。授權記錄沒有反映這一變化。當患者結果受到審查時,問責鏈看似完整——臨床醫生批准了每一個行動。閾值問題在於:在結果發生之前,臨床醫生的批准功能已通過漂移被掏空。
閾值問題的解決要求
最低限度的回應是將閾值視為一等設計產物:在部署時聲明,變更時明確版本化,並作為授權事件記錄。閾值變更——無論由模型更新、營運壓力還是信任積累驅動——都應產生在問責權重上等同於原始授權決策的審計記錄。營運方應被要求對閾值變更進行認證,而不僅僅將其作為配置更新加以實施。
超越記錄層面,閾值還需要監控。當前上報率並不是閾值位置的充分代理指標,因為漂移可以在閾值形式上保持不變的同時降低上報率。閾值治理需要追蹤通過自主渠道的決策分佈,與部署授權時在範圍內的決策分佈進行對照——並在交集不再符合授權假設時發出警告。
閾值問題是一個看起來像工程問題的治理問題。用於管理它的工具——置信度閾值、上報路由、審查隊列——都是工程構件。但閾值應該設在哪裡、誰有權移動它,則是問責問題。將閾值管理視為配置問題而非治理問題的系統,將發現其智能體已獲得比任何委託人打算授予的更廣泛的自主權限。
每個智能體部署都有一條閾值,將自主決策與上報決策分隔開。閾值很少作為一等設計產物被聲明;它們從置信度評分、營運壓力和積累的信任中湧現。將閾值視為一等治理產物:聲明、版本化、記錄並單獨授權,是將自主範圍限制在實際獲批範圍內的最低架構要求。