← 返回博客
× 量子安全 × 硬件 × 物理世界照護

對齊漂移問题:AI智能體在部署後如何悄然失準

2026-06-14 5 分鐘閱讀

AI智能體在部署時處於對齊状態。其行為經過校準,符合委託方在部署時希望實現的目標、約束條件與評估標準。但這種對齊並非永久有效。世界在變化,運行上下文在變化,威脅態勢在變化。智能體的校準参數不會自動隨之更新。由此產生的便是對齊漂移:智能體實際行為與委託方當前期望之間的逐漸背離,且整個過程不會觸發任何明确的審查事件。

對齊漂移不同於程序錯誤、規範失當與身份變更。程序錯誤產生可被複現和修複的錯誤行為;規範失當產生的是持續满足書面要求但實質不符的行為;身份變更則發生在模型或配置被明确更新時,會觸發重新註冊的檢查点。對齊漂移不屬於上述任何一種。它是在一個悄然變得不同於智能體初始校準時上下文中部署的累積效應。

沉默使其成為危險

大多數智能體監控框架旨在檢測行為偏差,通過將智能體當前行為與歷史行為相比較來實現。對齊漂移對這種方法而言是透明的。一個上週失準、本週同样失準的智能體,不會產生任何異常訊號。監控器看到的是一致的行為;而這種一致性本身就是問题所在。

設想一個针對特定患者群體——具有特定病症分佈、用藥情況和活動能力水平——進行校準的照護智能體。十二個月後,該群體發生了變化:新入住者带來不同的健康檔案。但智能體的校準参數仍然錨定在原始分佈上。其建議開始出現细微偏差——不是災難性的失誤,無法通過單次事件監控檢測到,但對當前患者群體而言持續不夠适當。智能體在做它被训练去做的事;而它正在服務的群體,已不再是它被训练時所针對的群體。

後量子维度

後量子安全為對齊漂移增加了特定轴向。一個针對經典對抗威胁模型進行校準的智能體,在面對量子能力的攻擊者時,定義上已處於失準状態。從經典威胁到後量子威胁的過渡不是一個邊界清晰的離散事件,而是一個逐漸變化的概率分佈:隨着量子能力的成熟,經典簽名被偽造的可能性不斷上升。一個被正确校準為信任基於格的簽名方案而非經典密鑰材料的智能體,在特定威胁模型下做出了正确判斷。但隨着威胁模型的演進,信任閾值可能需要重新校準——而智能體没有任何機制察觉其校準正在老化。

同样的動態适用於智能體自身的簽名行為。一個被校準為使用在部署時強度充分的演算法族進行决策簽名的智能體,可能逐漸使用一個正在變弱的算法。校準本身没有錯;是世界發生了移動。

硬件退化即對齊漂移

物理硬件引入了更深一层的维度。傳感器會隨時間退化。一個使用新鲜近距傳感器校準的照護機械人,隨着傳感器老化,可能產生系統性偏差的感知。智能體的世界模型建立在不再精準的傳感器讀數之上。其校準——在部署時對當時的傳感器讀數而言是正确的——與實際物理環境之間的背離日益加剧。

這是硬件层面的對齊漂移:智能體的行為對於其接收到的傳感器讀數而言是正确的;傳感器讀數對於真實世界而言不再正确。修複不是軟件层面的工作,而需要物理世界的干預。智能體無法自行診斷這一問题;監控也無法通過將當前行為與歷史行為比較來發現它。這需要一套定期對照物理環境真實观察結果來檢验智能體輸出的測試機制。

設計應對

將對齊漂移作為一級運營关切來對待,需要三件事。第一,對齊陳舊度計時器:部署記錄應包括最後一次校準的日期以及校準時的環境條件,該計時器在重新校準前持續運行。第二,重新校準觸發條件:運行上下文的特定變化——群體轉變、威脅態勢變化、硬件维護週期——應觸發強制性的重新校準審查,而不僅是性能審查。第三,覆蓋訊號:人工干預是對齊漂移最可靠的證據。記錄不僅是干預內容、還有干預原因的覆蓋日誌,是對齊漂移探測器。當一批覆蓋事件共享同一類失效模式時,這批事件就是智能體校準不再匹配其運行上下文的證據。

因此,覆蓋日誌不僅僅是審計軌跡,它是對齊漂移的傳感器。僅將其视為合規記錄的組織,會錯過其中蕴含的訊號。

對齊漂移不是災難性的失效模式,而是一種缓慢的退化,不產生任何值得單獨記錄的事件。這正是它成為最難治理的智能體失效類型的原因——也是從一開始就必須為其設計防護的原因。