这种不对称性陈述起来很直白:一个AI智能体可以在单个人工审查员处理第一个案例之前,向一万人传递错误决策。传递错误只需毫秒。纠正它将耗费数月。
这就是不对称纠错问题——智能体错误传递规模与其可被纠正的规模之间的结构性差距。这不是偶然的流程失败。这是智能体部署的几何特性,而问责框架尚未充分面对这一现实。
为何系统性错误与众不同
随机错误通常可以通过同一传递渠道推送纠正输出来大规模修复。系统性错误则不然。那些由训练分布不匹配、配置边界偏移或共享模型失效模式引发的错误,影响的不是随机的用户子集,而是由导致失效的特征本身所定义的一个类别。每个受影响的人都收到了针对其具体输入量身定制的建议。每次纠正都需要确认错误建议是什么、正确建议应该是什么,以及在发现错误之前的间隔期内当事人采取了什么行动。
纠正就是个案处理。而个案处理的规模与部署覆盖范围成正比。
为何潜在伤害会加重责任
当错误决策造成的伤害并非即时显现时——在复杂领域中这种情况很常见——受影响的人在错误未被发现期间持续依据错误输出行事。从系统性错误到被发现的整个潜伏期内,纠错义务不断累积。一个遵循错误指导三周后才被审查标记出问题的护理对象,与当天就得到纠正的人情况截然不同;错误指导的后续影响已经叠加,纠正工作必须同时应对这些影响。
以错误能被迅速发现为前提设计的问责架构,无法考量在这段潜伏期内积累的纠错需求。而这种需求在设计阶段就是可以预见的,却未被如此对待。
为何纠正无法自动化
计算回滚是对称的:写入错误状态的系统可以覆写它。人类伤害则不然。纠正它需要联系受影响者、告知错误、就正确建议应是什么提供指导,并支持纠正所涉及的一切变化。这项工作无法像最初的传递那样并行处理。每次联系都是有限的人力投入。
以无法事后纠正的规模部署智能体的组织,做出的不是部署决策。而是一个责任决策——在任何具体事故发生之前,就已决定了其问责暴露程度。
后量子安全交叉点
当一个密码学算法族被弃用时,在其下签署的每条记录都需要个别审查:不是该算法是否被普遍弃用,而是这条特定记录在这一特定用途中是否依赖了一个不再成立的安全保证。对于建立在后量子过渡前算法族上的基础设施,审查规模与被弃用原语的整个部署生命周期成正比——可能跨越数年和数百万条记录。弃用算法的纠错需求在选择算法时就是可以预见的,但由于问责义务在设计决策后很久才到来,它被系统性地低估了。
硬件交叉点
影响已部署硬件集群的固件漏洞需要三项截然不同的操作:识别受影响设备、推送纠正配置,以及确定在漏洞存在期间的智能体行为是否需要重新审查。前两项可以自动化,第三项则不能——它是个案处理,因为重要的不是设备是否普遍存在漏洞,而是在该时间窗口内它所证明的具体智能体行为,是否属于现已纠正的配置本应保证其完整性的那类行为。忽略这一个案处理层的硬件纠正问责假设,低估了纠错成本,其程度相当于整个智能体行为日志的深度。
物理世界护理交叉点
在护理部署中,不对称纠错问题影响最为深远。一个系统性地未能标记某类禁忌症、或在患者群体中低估某种症状模式的智能体,以机器速度传播了错误护理指导。纠正它意味着联系每位受影响的护理对象,审查其具体案例,评估他们依据错误指导采取了什么行动,并提供纠正指导。这些工作没有一项能够随传递渠道扩展。这是规模随智能体覆盖范围增长的人工工作。
大规模部署智能体的护理机构必须能够以相应规模提供这项纠正工作。这种能力不是在事故发生后才配置的补救资源。它是部署的前提条件——而其在部署时的缺失本身就是一种问责失败,无论系统性错误是否曾经发生。
设计阶段的应对措施
改进错误检测并不能解决不对称纠错问题。更好的检测提高了识别纠错义务的速度;它不改变义务的规模,而规模由部署覆盖范围和错误发生率决定。确实能应对该问题的设计阶段措施包括:在能够证明具有相应规模的纠错能力之前限制部署覆盖范围;将纠错工作流作为一等系统组件构建,而非作为事故响应产物;以及在部署评估中将纠错能力作为风险因素,而非将其作为伤害确立后才需管理的成本。
不建立传递速度与纠正速度之间差距模型的问责框架,将继续设定现实规模的真实部署无法满足的补救预期。
不对称纠错问题的产生,是因为AI智能体以机器规模传递决策,而纠正系统性错误需要对每位受影响者付出人工规模的努力。传递能力与纠正能力之间的差距是智能体部署的结构性特征,而非运营失败。当错误是系统性而非随机性的、当伤害具有潜伏期,以及当纠正需要与每位受影响方直接接触时,这一问题最为严峻。符合问责要求的部署需要在部署前证明具有预期部署规模下的纠错能力——而非将纠正视为未来事故之后的资源问题来对待。