预判性问责问题
事后审计无法治理先于监督行动的智能体
AI智能体的问责架构几乎完全建立在事后。防篡改日志、取证重建、审计追踪——这些机制询问智能体做了什么以及能否在事后解释。当事后审查的成本相对于决策成本较低时,这是合适的:一项在专业人员行动前审查的建议,一份在归档前审查的文件。但在三大交叉口(后量子安全、硬件和物理世界照护)部署的AI智能体,越来越多地在事后审查结构性地为时已晚的领域中行动。审计追踪在不可逆转的时刻过去后才到达。
回顾性问责的假设
标准问责框架假设智能体行动和后果之间存在时间差。智能体提出建议;人类进行审查;人类采取行动。问责记录捕获建议、审查和行动。即使在更自动化的场景中,假设也是可以在事情变得重要之前检查某些东西:可以提出标志,警报可以暂停工作流,人类可以介入。
这个假设在低风险、可逆或固有延迟的领域效果良好。它恰恰在AI智能体最有价值的领域失败。
假设在哪里失效
后量子迁移决策可以在人类审查员能够收到通知之前,在分布式系统中生效。大型机队部署中的硬件配置更改可以在几秒钟内传播到数千个节点。在物理世界照护中,智能体的干预——药物调整、照护升级、安全警报——在实时发生,在一个人需要它的那一刻。在决策之后到来的审查不是监督;那是取证。
后果不是问责变得不可能——日志仍然可以记录发生了什么。后果是回顾性问责已经接受了风险。如果决策是错误的,日志会在伤害发生后告诉你这是错误的。这只是名义上的问责。
后量子交叉点
密码迁移既不可逆又有时间敏感性。一旦智能体在生产系统中弃用了一个算法,回滚成本与前进成本并不等同。在这个领域运作的智能体基于事后审查者可能缺乏的技术知识行动,以无法进行及时审查的速度行动,产生难以逆转的后果。迁移决策的审计追踪对回顾性分析很有价值,但不提供任何预判性保护。
硬件交叉点
执行配置更改的硬件机队智能体以人类监督在规模上无法匹配的节奏运行。推送给一万台设备的配置更改,在任何审查员评估它之前,就已经成为物理世界的事实。问责记录是完整的——但防止错误决策的机会已经过去。机队操作的回顾性问责是从灾难中学习的纪律,而不是预防灾难的纪律。
物理世界照护
物理世界照护智能体代表可能无法实时监督其行动的人员行动。凌晨3点做出决策的夜间照护智能体没有选择在人类审查之前等待。智能体的价值恰恰在于它可以在人类不能的时候行动。那个行动的问责记录是在决策做出之后产生的,无法撤销它。
预判性问责需要什么
解决这一差距需要将部分问责负担从事后审计转移到行动前约束。这有几种形式。
部署前认证询问:这个智能体的行为是否得到了足够的表征,以至于部署者可以在它行动之前断言它将做什么?这与测试过去的性能不同——这是对未来行为的前瞻性声明。
运行时证明询问:智能体能否实时证明它在其认证参数内运行?安全交叉口的硬件根证明不仅意味着"这是我们部署的模型",还意味着"这个模型,对这些输入,表现如同特征描述的那样"。
行动包络询问:在智能体行动之前,它能否验证提议的行动在预先承诺的安全行动范围内?包络不是策略——它是边界。无法确认行动在其包络内的智能体不应单独行动。
决策前人类检查点询问:哪些决策足够重要,需要在行动前而不是行动后有一个人类决策点?设置这些阈值是一个问责设计问题,而不仅仅是风险管理问题。这些机制共同构成了预判性问责层——一个在不可逆时刻之前行动的层次,而不是在之后。回顾性问责是关于发生了什么;预判性问责是关于可能发生什么,以及什么必须被阻止在没有适当监督的情况下发生。在交叉口部署的智能体两者都需要。只构建回顾性层并声称问责完整,是一个常见的严重设计错误。
标准AI智能体问责依赖于回顾性审计——防篡改日志、取证重建、事后审查。当审查可以在重大行动之前进行时,这是足够的。在后量子迁移、硬件机队管理和物理世界照护中,智能体以机器速度在审查为时已晚的领域行动;回顾性审计无法防止伤害,它只能记录伤害。预判性问责问题需要不同的层次:部署前认证(这个智能体将做什么?)、运行时证明(这个智能体是否按认证行事?)、行动包络(提议的行动是否在预先承诺的安全范围内?),以及决策前人类检查点(哪些决策在行动前而不是行动后需要人类决策点?)。只构建回顾性层并声称问责完整,是一个常见的严重设计错误。