× 量子安全 · × 硬件 · × 物理世界照护

渐进式降级问题：当AI智能体无法完成任务时，它对你的义务

作者：Asaptic Labs 2026-05-25 6 分钟阅读

关于AI智能体问责的讨论，通常聚焦于其所采取的行动：它是否在授权范围内行事？是否签发了行动回执？行动是否可归因于正确的委托人？这些都是正确的问题——但前提是智能体处于正常运行状态。

这并非全部的问题。系统会出故障，硬件会老化，网络会断连，模型置信度会下降到不宜继续推理的区间。在每一种情形下，智能体都面临着几乎从未被明确指示过如何处理的抉择。它在这些时刻的行为，与正常运行下的行为同样关键。

渐进式降级并非附加在问责框架上的可靠性指标，而是问责框架本身的组成部分。一个在正常情况下行为正确、却在异常情况下随意行事的智能体，其问责覆盖存在巨大漏洞——而这一漏洞往往在风险最高的时刻才会显现。

三种故障模式

第一是服务降级。当智能体运行在多组件流水线中时，任何一个环节都可能随时失去访问。当授权端点不可达时，大多数现有部署的默认做法是继续运行，因为运营连续性被视为首要目标。正确答案取决于授权端点所把控的内容。对于低风险读取操作，继续运行或许可以接受；但如果是护理环境中的物理操作——实施治疗、调整设备参数、发送临床警报——在未获授权确认的情况下继续执行，并非"有所降级但可接受"的模式，而是一种问责失败。

第二是硬件降级。当执行平台出现故障时——传感器失效、安全飞地不可用、TPM停止响应——认证链断裂。一个在认证基础设施失效后仍继续运行的智能体，所产生的行动已无从问责。在物理世界护理部署中，未经认证的行动不只是日志空缺，而是无法验证、无法回溯、无法追溯到具体硬件上下文的行动。

第三是模型不确定性。对于分布外输入或对抗性构造的提示，模型输出分布会变得不可靠，而模型本身缺乏可靠的内省能力——主观置信度有时在客观准确性最低时反而最高。安全降级行为的规范，不能依赖智能体的自我检测，而必须依赖外部监控、置信区间和强制停止阈值。

为何这是问责要求

只能对正常情况下行动负责的智能体，仅构建了半个问责体系。另一半在于：明确规定智能体在出错时应如何应对，并留下证明其确实如此行事的审计记录。

审查AI部署的调查人员和运营方不只会问正常运行时发生了什么，还会问：当智能体遭遇非预期条件时，它是否安全停止？是否上报？是否终止行动？还是假装故障未曾发生地继续运行？这些问题的答案与正常运行时的问题同等重要——如果降级行为从未被明确规定，则更难以给出。

在三个交叉点的表现

在后量子安全交叉点，渐进式降级涉及密码学基础设施。无法验证后量子绑定的智能体不应继续执行。正确的降级模式是停止并上报，而非退回到较弱的密码方案——退回经典密码学不是优雅降级，而是伪装成可靠性特性的安全回退。

在硬件交叉点，降级是传感器与认证问题。执行环境失去硬件完整性保证的智能体，必须将自身视为已越出问责边界，并停止一切后果性操作，而非假设认证链很快就会恢复。在认证间隙期间采取行动的智能体，对这段时间内的行为没有任何有意义的问责。

在物理世界护理交叉点，风险最为直接。在传感器输入或授权链断裂后仍悄然继续运行的护理智能体，不是在艰难条件下尽力而为——它是在完全脱离问责框架的情况下运作。依赖其输出的住客和临床人员，所信赖的系统已不再满足其建议被验证时所依赖的前提条件。护理场景中的静默降级不是软件故障，而是护理失误，对人的福祉有直接影响。

规定安全停止点

正确的架构会提前、明确地规定每类后果性操作必须停止的条件。这要求在故障发生前预判故障模式，为每类操作指定降级类别，并建立能够检测阈值越界并触发受控停止的监控基础设施。这一规范是智能体部署问责面的一部分，应与权限模型、委托人层级和认证架构并列记录。

无法说明自身在无法完成任务时会如何应对的智能体，其问责设计尚未完成。问题不只是：能完成时，智能体是否正确行事？还在于：无法完成时，智能体是否正确停止？

核心观点

AI智能体的问责讨论通常聚焦于正常运行时的行动，而忽视了同样关键的问题：当系统出故障时，智能体应如何应对？渐进式降级并非可靠性指标，而是问责框架的组成部分。三种核心故障模式——服务降级（授权端点不可达）、硬件降级（认证链断裂）、模型不确定性——在后量子安全、硬件与物理护理三个交叉点上各有不同的严重程度。正确的架构事先明确每类后果性操作必须停止的条件，并将其纳入权限模型与委托人层级文档。一个无法说明自身在无法完成任务时会如何应对的智能体，其问责设计尚未完成。

← 全部文章上篇：多租户隔离问题 →