幻觉问责缺口:AI智能体在物理世界基于自信的虚假信息采取行动时的问责机制
一个护理智能体收到关于患者药物相互作用的问题。它给出了自信、完整、却错误的回答。家属遵循了这一指导,造成了伤害。谁应当为此负责?
这就是幻觉问责缺口:当AI智能体基于自信陈述但缺乏事实依据的信息,在物理世界中采取后果性行动时,该行动的责任以标准问责框架无法解决的方式被结构性地分散。
缺口的结构
幻觉不是欺骗。产生虚假信息的AI智能体并未违反其授权范围——它没有超出许可范围、没有违反指令、也未被篡改。它完全按照授权运行,只是出错了。
这产生了一个根本性的问责难题。构建模型的开发者不对特定的虚假输出负责——模型是按最佳可用标准训练的。配置智能体的部署者不负责——配置是正确的。批准部署的运营方不负责——批准是适当的。智能体本身没有作为问责方的资格。然而伤害发生了。
这一缺口的存在,是因为问责框架建立在授权之上:谁许可了什么,谁在这些许可范围内或之外行动,谁本应阻止。幻觉之所以能钻空子,是因为它是经过授权的行为产生了未经授权的后果。问责链上的每一方相对于其角色都行动正确,结果依然出错。
后量子安全交叉点
后量子密码学处理AI系统的完整性和真实性。硬件证明可以验证模型权重未被篡改、执行环境是部署者授权的那个,以及输出是由主体意图部署的系统签名的。这些都无法解决事实准确性问题。
一个经过完美证明的模型可以以完整的密码学完整性产生自信的虚假输出。对输出的签名确认这个授权系统产生了这个输出——而非该输出是正确的。后量子信任基础设施回答关于身份和完整性的问题;它不回答关于真相的问题。向量子抗性密码学的转型强化了系统每个层级的问责架构,唯独不包括生成主体实际依据的内容的那一层。
这不是对后量子证明的批评——这是关于密码学验证能达到什么范围的结构性观察。为物理世界部署而设计的系统必须明确处理两个层级,而不能假设完整性意味着准确性。
硬件交叉点
硬件信任根确立执行模型的系统是主体部署的那个,以及其软件未被修改。它们不约束模型能说什么。硬件边界保证执行完整性;语义边界——模型可以真实断言什么——不是硬件属性,也不适合通过硬件强制执行。
这对物理AI部署产生了重要影响。一个嵌入医疗监控基础设施、楼宇管理或辅助照护设备的系统,拥有已验证的硬件证明链却产生了自信的虚假事实输出,从问责角度而言,与证明链已被破坏的系统同样有问题。伤害是相同的。责任方在结构上不同,针对每种故障模式可用的问责工具也不可互换。
硬件证明告诉你正确的系统产生了输出。幻觉问责缺口关于的是当正确的系统产生错误输出时该怎么办——而在大多数已部署架构中,目前的答案并不清晰。
物理世界照护交叉点
照护环境对幻觉问责缺口特别脆弱,原因很具体:AI照护智能体通常是其服务对象的权威信息来源。家庭成员向照护AI询问药物相互作用、跌倒风险阈值或照护方案,可能没有实际可行的独立验证手段。智能体自信的回答即使不正确,也被当作真相。
这种脆弱性因照护环境的人口学现实而加剧。年长者和认知能力下降的人不太可能质疑AI的自信断言,不太可能寻求第二个信息源,也不太可能认识到自信的输出在事实上是错误的。伤害到达了最不善于发现和纠正错误的群体。在问责链上任何人获得干预所需信息之前,问责主张就已经积累。
照护AI还嵌入在人工覆盖能力结构性受限的场景中。夜间照护情境、医疗紧急时刻、认知插曲期间的决策点——这些恰恰是AI智能体最有价值的场景,也是缺少人工验证者最关键的场景。幻觉问责缺口在最重要的时候恰好最大。
迈向问责的回应
幻觉问责缺口无法通过任何现有的责任归属来解决。问责回应需要当前部署中很少包含的结构性要素。
第一是输出点的认识论标注。在高风险物理场景中运行的AI智能体,应区分检索已验证、有来源的信息,与从模型推断生成输出。这一区别并非总能以完美精度实施——但这一尝试改变了输出造成伤害时的问责主张。按认识论类型标注输出的智能体,创建了关于其所断言和未断言内容的记录。不这样做的智能体,将这一区分完全留给了事后重建。
第二是针对后果性输出的强制验证渠道。在照护环境中,涉及医疗、安全或法律事项的AI智能体输出,在采取行动前应触发验证步骤——由回路中的人工干预,或由具有不同模型谱系的第二个系统。验证门中假阴性的代价,低于自信的假阳性到达未经验证的照护对象的代价。
第三是模型层面的事件归因存档。当虚假输出造成伤害时,应将模型版本、提示、存在或缺失的检索来源以及完整输出作为结构化证据保存。这不能解决谁承担责任——这需要目前尚不存在的规范性共识——但使责任归因可调查,而非在结构上被掩盖。无法在事后重建的问责,只是名义上的问责。
在Asaptic Labs,幻觉问责缺口被视为在三个交叉点任一处运行的AI智能体的头等问题。密码学完整性和事实准确性是正交属性。一个完整性已验证而输出错误的系统,通过了证明所能提供的每一项测试,却在物理世界中最重要的那项测试上失败。在不可逆后果的节点上,针对这一缺口进行设计不是可选项。
幻觉问责缺口之所以存在,是因为标准问责框架建立在授权之上,而幻觉恰恰是经过授权的行为产生了未经授权的后果。后量子证明和硬件信任根验证系统完整性,而非语义准确性——这是正交属性。在物理世界照护场景中,这一缺口在最重要的地方最为突出:夜间、紧急情况下,以及最不善于识别自信陈述的谬误的群体中。弥合这一缺口需要在输出层——认识论标注、验证渠道和存档归因——进行结构性响应,而不仅是在身份和完整性层。