分布外问题:AI智能体遭遇从未训练过的场景时
验证证明了智能体在定义好的输入分布上的能力。在该边界之外,智能体所表达的置信度是针对一个它已不再能够识别的世界校准的。
每一个AI智能体的部署决策都携带着一个隐形的边界条件:智能体在其经过验证的输入范围内表现如测试所示,对范围之外的任何情况不作保证。这个边界很少被明确表述,通常即使是开发者也无法精确知晓。但它始终存在——当智能体越过它时,支撑部署决策的可靠性属性便不再适用。
分布外问题首先不是模型质量问题。一个经过精心训练和验证的智能体,当接收到训练和评估分布之外的输入时,仍可能造成严重后果的失败。更具体的失败在于,智能体通常不知道它已经越过了这个边界。其置信度估计是针对分布内示例校准的;其推理模式、工具使用启发式、决策阈值——都为它所识别的世界而调整。当那个世界以重要的方式改变时,智能体继续运作,好像什么都没有发生。
后量子交叉点
后量子密码学不仅仅是算法参数的改变。它是密码景观的结构性转变——新的基元、新的失败模式、与大多数已部署智能体所针对的经典威胁模型不相似的新攻击面。一个针对经典威胁模型验证的、正在做密码配置决策的智能体,在定义上,当遇到后量子相关场景时,就是在分布外运行。
难点在于这个边界不是单一明确的界限。它随着威胁模型的演进而移动:随着新攻击的发布,随着标准的成熟,随着推荐参数集的变化。六个月前经过验证的智能体可能已经对当前景观处于分布外状态——不是因为算法改变,而是因为被认为充分的安全边际和配置已被修订。当这种情况发生时,没有警报响起。智能体继续以与其选择仍然有效时相同的表面置信度选择参数,针对一个它没有见过也没有被训练去识别的威胁模型。
硬件交叉点
部署中的硬件环境与验证中的硬件环境不同。在受控测试环境中对精心选取的传感器读数进行验证的模型,将会遇到验证集中没有出现的传感器漂移、制造差异、环境噪声和故障模式特征。在实际部署中做出维护调度或异常检测决策的智能体,在不同程度上,始终在分布外谱系的某处运行。
后果不是智能体明显失败——而是以难以归因的方式失败。将振动特征归类为正常、而实际上它是早期故障指标的智能体不会产生明确错误。它以训练所报告的任何置信度分数记录正常分类。输入的分布外特性在输出中是不可见的。失败悄然传播,直到作为硬件损坏浮现——此时因果链贯穿着一个智能体决策,而那个决策当时与正确决策无从区分。
物理世界照护交叉点
人类是不可化约地多变的。没有任何验证集能捕捉护理人群的完整分布——其并发症、药物相互作用、行为模式、生理反应。真实护理环境中的每个人,在某些方面,都相对于验证数据处于分布外。
这不是验证工作的失败;这是问题的结构。护理智能体验证所基于的分布与其现在支持的特定人员之间的差距,不是偶然的噪声——它是风险的主要来源。无法识别自身分布外暴露的护理智能体,无法适当地升级,无法相应地限定其建议,也无法触发护理环境中此类暴露所需的人工审查。
不对称性在于,护理后果通常延迟,因果关系模糊,并归因于潜在状况而非智能体的处理方式。护理智能体的分布外失败可能产生在临床上归因于疾病进展的伤害,而非归因于在验证边界之外运行的系统。问责差距是结构性的:暴露未被记录,伤害未被归因,同一智能体继续为下一位在同样分布差距中的人做出决策。
分布外问题的应对要求
弥合问责差距至少要求:智能体的验证边界以可与实际部署条件比较的术语记录;部署基础设施对分布偏移指标进行持续监控;当检测到偏移时,自动触发升级或回退行为——而不是留给那些对模型内部分布假设没有可见性的观察者。
更根本的是,它要求接受分布外暴露在后果性部署中不是边缘案例。它是任何在真实、变化和人性化领域中运行的智能体的正常状态。问题不是智能体是否会遇到分布外输入——它会。问题是部署架构是否承认这一点,对其进行监控,并以保留智能体经验证提供的安全属性的方式响应。
在不知情的情况下在分布外运行的智能体,通常意义上不是一个失败的智能体。它是一个在没有能够检测该条件的问责架构的情况下部署的智能体。失败在上游——在部署决策中,而不在模型中。
每个AI智能体都在有限的输入分布上经过验证。在该分布之外,其表达的置信度未经校准,决策阈值不再调整,失败模式不再可预测——然而智能体通常在没有任何信号表明边界已被越过的情况下继续运行。在后量子安全中,这意味着智能体针对已经移动的威胁模型选择密码参数。在硬件中,这意味着异常检测将新型故障特征分类为正常。在物理世界护理中,这意味着为特征落在验证人群之外的患者提供建议,其不良结局可能被归因于疾病,而非归因于在能力边界之外运行的智能体。部署架构必须知道验证边界在哪里,对其进行监控,并在验证与部署之间的差距变得重要时触发升级。