軟件系統會被更新。隨着更好架構的出現,模型會被微調、再訓練和遷移。在傳統軟件中,身份連續性問題已被解決:服務有名稱、版本號和部署記錄。當 2.3 版本取代 2.2 時,變更日誌記錄了變更內容,回滾路徑也已定義。
AI 智能體引入了這個問題的更難版本。模型不只是智能體的一個組件——它構成了智能體的推理方式、對安全的判斷,以及對權限的解釋方式。同一基礎模型的微調版本可能在相同輸入上展現出不同的閾值敏感性、不同的拒絕模式和不同的置信分佈。這次更新可能看起來不像軟件版本變更,可能沒有公告。而下游方——用戶、監管機構、向智能體授予權限的機構——可能沒有任何機制來檢測它。
這就是身份連續性問題:被授權執行任務的智能體,是作為一種特定推理配置被授權的。如果該配置改變,授權可能不再適用。但權限流動所經過的系統——API 密鑰、服務賬戶、委託憑證——對模型身份是盲目的。它們驗證的是端點,而非背後的推理。
三種失效模式
第一種是靜默行為漂移。模型在新的運營數據上進行微調以提升特定任務表現。運營者將此視為常規改進。但微調改變的不僅是目標能力——它改變了模型行為的整體分佈,包括從未被刻意針對的安全邊界行為。
第二種是影子部署。新版本模型以影子模式與生產版本並行運行,然後逐步或突然切換至生產環境。從憑證層的角度來看,甚麼都沒有改變——同一個服務賬戶調用同一個端點。但為真實用戶做出重要決策的智能體,已是與最初被評估和授權的配置不同的另一個配置。
第三種是算法遷移。在後量子過渡期,使用經典密碼算法進行簽名、證明和身份操作的智能體必須遷移到基於格的或基於哈希的後繼算法。這一遷移從最底層改變了智能體的密碼學身份。沒有正式的連續性協議,遷移後的智能體從問責角度看就是一個新智能體。
為甚麼在交叉點上重要
在後量子安全交叉點,從經典到抗量子密碼學的算法遷移不是軟件版本升級——它是根層面密碼學身份的變更。沒有結構化的交接協議,問責連續性在轉型壓力最大的時刻就已斷裂。
在硬件交叉點,錨定模型身份的唯一可靠方式是將其綁定到硬件證明:可信平台模組或安全飛地對模型權重的測量值進行簽名,該測量值成為智能體可驗證身份聲明的一部分。當模型改變時,測量值改變,任何驗證方都能檢測到這一變化。
在現實世界照護交叉點,風險以一種尤為具體的方式體現在個人層面。一個已與住客建立校準互動歷史的照護智能體,無法與不同的模型配置互換,即使兩者都在相同服務名稱下運行。照護關係涉及判斷的連續性,而不僅是訪問權限的連續性。
身份連續性的要求
架構層面的解法包含三個要素。首先,模型身份必須在部署時以硬件根植測量值的方式進行密碼學綁定。該測量值必須能被部署運營者以外的各方驗證,而不僅是在可被修改的內部系統中記錄。
其次,該測量值的任何實質性變更都必須觸發新的授權事件。微調模型的部署不是就地更新——它是一個必須按照與原始版本相同標準進行評估的新智能體。委託權限不會自動跨越測量值邊界轉移。
第三,當更新確實是連續的時,必須對連續性聲明進行正式化。如果運營者能證明模型更新僅改變了經過評估的特定能力,且安全邊界行為在經過驗證的容差範圍內與前版本一致,則可以發出連續性證明。
連續性記錄即是問責
在任何給定時刻,智能體是甚麼,必須是可驗證記錄的事項。不是服務註冊表中的版本標籤,而是對被授權採取行動的特定配置的密碼學承諾。當該配置改變時,記錄必須改變,且該變更必須對授權方可見。
沒有這一機制,問責就是虛構。重大失敗事件後的調查會深入記錄,卻發現授權的配置可能與故障發生時實際運行的配置不符。採取行動的智能體與被授權的智能體,僅在名稱上相同。身份連續性是高後果領域中問責制的結構性前提。
AI 智能體在經歷微調、再訓練或算法遷移後,是否仍是同一個智能體?這是身份連續性問題:憑證層對模型身份是盲目的,它驗證的是端點,而非背後的推理配置。解法需要將模型身份以硬件證明的方式密碼學綁定到權重測量值,讓任何實質變更觸發新的授權事件,並在更新真正連續時發佈經過簽名的連續性聲明。