← 返回博客
× 后量子安全 · × 硬件 · × 物理世界护理

温备用问题:当AI智能体的核心行动在生产中几乎从不发生时的问责

许多物理世界AI智能体并非为持续行动而构建,而是为在特定罕见条件下进行干预。针对始终在线智能体设计的问责框架——持续审计跟踪、定期行为测试、持续监督——在被应用于其核心行动可能数月乃至数年不发生的系统时,会发生结构性崩溃。

Asaptic Labs 2026-06-14 5 分钟阅读

AI智能体的问责框架基于一种熟悉的运营模式:智能体持续行动,其输出积累为审计跟踪,该跟踪定期接受审查以评估智能体是否在授权范围内运作。这种模式以稳定的行动状态为前提,适用于安排日程、处理交易或监控传感器数据的智能体。但对于另一类实践中更为关键的部署,它几乎完全失效:即温备用智能体。

温备用智能体被设计为在正常条件下保持非活跃状态,仅在特定触发条件出现时进行干预。硬件安全联锁装置会在传感器读数超过阈值时中止流程。后量子密钥托管系统仅在主密钥被确认遭到攻击时才会释放备份密钥材料。照护环境中的跌倒检测智能体可能被动监测数月,在居民跌倒时在数秒内采取行动。触发事件可能极为罕见,但一旦触发,风险绝不轻微。

结构性问题在于:你无法从未发生的行动中建立问责记录。温备用智能体在正常运营期间的审计跟踪是否定事件的日志——智能体检查了条件,未发现触发事件,未采取任何行动。该记录仅能证明智能体在运行,却对智能体在触发事件真正发生时是否会正确行动只字未提。从未经历真实条件测试的智能体与通过测试的智能体持有相同的认证。问责框架无法区分两者。

模拟测试的陷阱

针对这一问题的标准应对方案是分级测试:在受控环境中引入合成触发条件,观察智能体是否做出正确响应。分级测试优于无测试,对某些智能体而言也是唯一可用的方法。但它引入了自身的问责缺口。合成触发事件不是真实触发事件。智能体可能对精心设计的合成事件做出正确响应,却在真实触发事件中失败——因为真实事件可能伴随着测试环境未能预测的噪声、歧义或并发条件。通过分级测试是基础能力的证据,而非在智能体将最终面临的全部条件分布下可靠运行的证据。

更糟糕的是:分级测试必须有计划地安排,这意味着智能体的运营者知道测试的发生时间。持续被观察和修改的智能体可能会无意间针对测试场景进行调优,而非针对真实部署群体。问责记录充满了成功的分级测试,而真实的触发条件群体——未被观察、未被采样,且可能比测试库预期的更具挑战性——仍然缺乏表征。

后量子安全交叉点

后量子密钥管理系统通常包含温备用组件:备份密钥仪式、托管释放机制、灾难恢复密码路径。这些组件被设计为在主系统发生故障或遭受攻击时运行——在管理良好的机构中,这些事件几乎不应该发生。主系统的问责架构相对简单明了:它持续运作,其输出可以测试,其行为可以对照已知输入和预期输出进行审计。备份系统的问责架构则在结构上更为薄弱。它可能在部署时和定期间隔时接受过测试,但如果密钥妥协事件发生在备份系统设计者未建模的情境中,测试与真实事件之间的差距正是问责失效的所在。

硬件交叉点

工业和基础设施嵌入式AI智能体通常包含按设计采用温备用方式的安全联锁功能。联锁装置极少触发,一旦触发,其采取的行动——中止流程、触发警报、隔离部件——是立即且物理性的。联锁装置持续监测功能的问责架构是可管理的:传感器读数、阈值比较和结构化事件日志。联锁装置干预功能的问责架构则更为困难。联锁装置的干预逻辑已针对有限的条件样本进行了测试,而在二十年部署期内将遇到的真实故障条件分布是未知的。当联锁装置最终触发时,它将基于可能未在接近实际触发情境下验证过的逻辑运行。触发前的审计跟踪对干预功能本身的就绪状态没有任何记录。

物理世界照护交叉点

照护AI部署以最直接的形式呈现了温备用问题。在夜间监测体弱居民的跌倒检测智能体几乎每晚都在做同样的事:观察、未检测到显著情况、记录平静的班次。在发生跌倒的那个夜晚,智能体的干预——触发警报、启动上报、视情况激活紧急响应——是整个部署的根本理由。居民、照护运营者和监管框架都假设智能体在那一刻能够正确行动。但智能体的问责记录几乎完全建立在没有发生跌倒的夜晚上。审计跟踪证明了智能体的在场和专注,却几乎没有提供证据说明真正重要的部分——干预逻辑——在需要时能否正确运行。

一个已部署十八个月但未发生跌倒事件的照护智能体,可能已以影响其干预逻辑的方式发生了漂移。固件更新、模型调整和环境变化可能改变了它处理与跌倒相关的特定信号模式的方式。这些在平静夜晚的审计跟踪中均不可见。问责架构反映的是一个曾经准备好行动的智能体,却无法反映智能体是否仍然准备好行动。

温备用问题的解决要求

解决这一缺口需要专门为低频干预智能体而非持续运营智能体设计的问责实践。这包括:在规定的时间间隔使用比原始测试集更广泛的场景库对干预逻辑进行独立验证;对测试条件与智能体可能遇到的真实条件分布之间差距的结构化分析;明确记录智能体尚未经过测试的内容;以及治理要求,将真实触发事件之间的长期间隔本身视为问责风险,而非视为未出现问题的证据。

温备用智能体安静的审计跟踪并不令人放心,它是关于唯一重要功能的证据缺失。在Asaptic Labs,我们在智能体被设计为低频但高后果干预的每个交叉点,都将温备用问责视为独立的设计问题。此类智能体的价值不在于它已做了什么,而在于它随时准备好做什么。问责必须反映这一区别。

核心观点

被设计为仅在罕见高风险条件下进行干预的AI智能体——安全联锁装置、密钥托管系统、照护紧急响应装置——积累的审计跟踪记录了持续监测,却几乎没有提供关于其干预逻辑就绪状态的证据。为持续运营智能体构建的标准问责框架无法适用于温备用部署。分级测试结果与真实世界可靠性之间的差距在传统审计中结构性地不可见。解决这一问题需要对干预逻辑进行基于时间间隔的独立验证、记录未采样的条件空间,以及明确的治理措施,将真实触发事件之间的长期间隔视为问责风险而非运营成功。