规范差距:问责始于意图
我们正在为 AI 智能体构建的问责框架,共享一个假设:智能体被授权执行的任务,可以被清晰陈述。授权记录包含允许执行任务的描述;覆盖日志记录对该描述的偏离;审计轨迹将已发生的与预期的进行比较。
这个假设比看起来更脆弱。
差距所在
当人类委托方授权一个智能体时,使用的是自然语言。"为该患者管理用药计划。""监控我们的网络异常并作出响应。""代表我处理日常往来。"这些指令不是规范说明。它们是压缩的、模糊的意图表达,包含着未言明的假设、语境依赖,以及委托方尚未考虑到的边缘情况。
智能体面对具体情境,必须解释该指令。它做出选择——"管理"意味着什么,什么算作"异常","往来"包含什么。这个选择遵循智能体的训练和所处约束,但可能与委托方的意图不符。
规范差距,是委托方意图与智能体对该意图的解释之间的距离,体现于实际行为之中。不同于可观测性差距(关于你能看到什么)或责任差距(关于谁承担后果),规范差距在两者上游。它决定着被呈现和追责的,究竟是不是正确的事情。
三种形态
差距在不同语境中呈现不同形状。第一种是欠规范陷阱。委托方给出目标,却未给出衡量成败的标准。"以住客的最大利益行事"是一条最大程度欠规范的指令。智能体必须自行补全对"住客利益"的理论——而这个理论可能与委托方的不同,并非因为智能体存在根本性偏差,而是因为指令留下了委托方从未打算留下的解释空间。
第二种是边缘情况级联。委托方对常规情形给出了相当精确的规定,却未规定边缘情况如何处理。安全监控智能体被告知"拦截匹配已知攻击特征的流量"。这相当精确。但当可信合作伙伴的合规流量匹配了某条特征时怎么办?当特征库已经过时时怎么办?委托方没有规定这些情况,因为他们没有预见到。智能体仍必须行动。它在那些边缘情况下做出的选择,并非经过授权的——而是被发明出来的。
第三种是价值编码问题。指令编码了委托方从未明确的关于什么是有价值的假设。当照护智能体被告知"优化患者福祉"时,"福祉"是由训练数据、协议设计者以及系统被评估所依据的先前案例隐性定义的。智能体的行为反映了这些隐性价值观,即使在被显化时委托方会不认同它们。
为何在这些关键节点尤为重要
在后量子安全节点,规范差距是一个漏洞面。被指派"将密码学操作迁移至抗量子算法"的智能体,实际上面对的是一个高度欠规范的任务。哪些操作?何时完成?过渡期对兼容性问题的容忍度是多少?在已批准标准仍在演进的背景下,什么算作"抗量子"?在此指令上行动的智能体,正在做出本应由授权人类明确决定的规范判断——而这些判断一旦落地,可能难以逆转。
在硬件节点,规范精度与证明价值直接相关。硬件根植的证明,能够证明智能体是什么、被给予了什么。它无法证明被给予的内容与委托方的意图相符。如果规范模糊,证明是对一次精确规定的欠规范的准确记录。世界上最强的密码学保证,无法替代从未被写下的意图。
在现实世界照护节点,风险是即时而个人化的。在欠规范目标下运作的照护智能体,不只是治理问题——它对一个纠正能力可能有限的人构成直接风险。照护场所中的住客并不总能说清智能体正在做的与他们实际想要的之间的差距。规范必须精确到可以被倡导者、家属和监管者审计——而不只是由部署运营者审计。
弥合差距需要什么
弥合规范差距并不意味着将指令最大程度地形式化或算法化。它意味着要求授权不只包含目标,还要包含衡量目标的标准、委托方已考虑的边缘情况,以及智能体遇到未覆盖情况时的升级路径。这份规范记录成为授权记录的一部分——不是独立文件,而是使授权有意义的东西。
实践要求由此而来。在智能体被部署到高后果领域之前,部署运营者必须能以书面回答三个问题:我们如何知道智能体在做正确的事?当它遇到我们未预见的情况时会发生什么?谁来决定何时需要修订规范?
如果这些问题无法回答,智能体尚未准备好部署——不是因为技术不成熟,而是因为问责基础设施尚不存在。没有规范记录的覆盖日志,没有任何东西可供覆盖。不锚定于明确意图的问责基础设施,是可以被用来为任何行为贴上"已授权"标签的基础设施。