← 返回博客
× 物理 AI · × 照护 AI · × 量子计算

可观察性差距:智能体行动时你看不到什么

2026-06-14 5 分钟阅读

📝 更新(2026-05-21): Asaptic Labs 现已采用四个交叉口框架——量子计算、物理 AI、智能原生企业、照护 AI。详见 /crossings。本文基于此前的三交叉口结构撰写;所涉及交叉口的论点仍然有效。

AI 智能体被指令执行的内容与你实际能观察到的内容之间,存在一个系统性差距。这并非主要是日志问题、审计问题或可解释性问题——尽管它与三者均有关联。这是一个时序问题。在已部署系统中,智能体在任何外部观察者能够评估、确认或中断行动之前就已完成动作。等到日志条目存在,行动早已结束。

大多数关于AI智能体安全的思考都在处理事后问题:如何审计,如何归因,如何纠正。这些是必要的工具。但它们是事后工具。它们回答"发生了什么",而非"正在发生什么"。在智能体后果不可逆的领域——机器已经移动、药物已经配发、财务承诺已经做出——事后答案来得太晚,已无关紧要。

为何实时可见性比看起来更难实现

部署在生产环境中的智能体通常同时跨多个系统协同运作。在单一逻辑行动的时间跨度内,它可能同时从数据存储中读取、调用外部API并向记录系统写入。没有任何单一观察者能在一个视图中看到所有这些子操作。行动结束后生成的日志是重构出的叙述,而非实时追踪。

此外,复杂管道中的智能体通常会委托给子智能体或外部工具。授权顶层行动的委托人,可能对该行动如何在更底层被分解和执行毫无可见性。这是可观察性差距的结构性形式:授权范围在系统的一个层级定义;实际执行发生在另一个层级、另一个基础设施、另一个时间轴上。

在行动可以回滚的软件场景中——错误的数据库写入可以撤销,误发的通知可以纠正——这种结构性差距是可管理的。而在 Asaptic Labs 所关注的三大关键领域,回滚往往不可用或不够充分。在已弃用算法下签署的密钥无法被取消签署。已移动的物理执行机构无法被还原。已发生的照护互动无法被收回。

事后替代方案及其局限

应对实时可观察性有限的标准架构方案是全面的事后日志记录。结合硬件证明——将日志条目与执行智能体的已证明状态绑定——可以生成难以伪造且可独立验证的记录。与未经证明的软件日志相比,这是真正的进步。

但事后替代方案有一条硬性限制:它无法将已完成的行动转变为待定决策。一个在14:03发生了错误交互的照护智能体,在14:03:02生成了完整的、已签名的、硬件证明的日志条目。日志条目是正确的,它所描述的事件却无法恢复。审计是健全的;结果已经固定。

这并非反对硬件证明日志记录的论据——它对于问责、纠正以及训练系统在下一次表现更好,仍然不可或缺。但这确实说明:硬件证明与全面日志记录是可信智能体部署的必要条件,而非充分条件。它们描述发生了什么,但无法防止坏事发生。

通过设计缩小差距

缩小可观察性差距需要在部署前做出架构选择,而非在事后添加监控仪表盘。三项原则能最直接地约束这一差距。

第一是收窄范围。授权行动集小的智能体,产生的可观察性差距也小。授权范围广泛的智能体——可以跨大量系统读取、写入和行动——产生的差距与其授权范围成正比。最小足迹原则既是安全原则,也是可观察性原则:窄足迹意味着你实际上能够观察到的足迹。

第二是可观察的检查点。复杂管道中的某些行动,可以被分解为一系列可观察的中间状态,每个状态都可以在下一步进行之前得到验证。这在架构上比单一端到端行动更昂贵,但它将可观察性差距从一个大的盲点转变为一系列较小的、可中断的步骤。硬件强制检查点——受信执行环境在继续之前暂停并暴露状态——是最强形式;它们无法被智能体自身绕过。

第三是在不可逆步骤设置人工审批门控。在特定领域中真正不可逆的行动集,通常比智能体被授权执行的行动集要小。识别出这个不可逆集,并在每个此类步骤之前要求明确的人工确认,并不会削弱智能体的自主性——它将自主性约束在速度重要的步骤,并在可逆性不存在的步骤恢复人工的深思熟虑控制。

为何这在每个关键领域的含义不同

在量子关键领域,可观察性差距是一个密码学漏洞面。无法实时观察密钥签署行动的智能体,可能正在使用已被攻破的凭证运行,签发的签名只有在后量子算法迁移揭示遗留密钥的弱点后才会受到质疑。后量子迁移本身就是一个可观察性问题:你无法迁移你看不见的东西。

在硬件关键领域,差距是物理安全差距。行动速度超过任何人类观察者评估能力的物理系统,从定义上来说,在传统意义上是不可监督的。唯一可用的监督是架构性的:系统无法逾越的预定义约束边界、智能体无法绕过的硬件强制检查点,以及使每个步骤在事后可归因的已签名行动记录——即使在行动发生的那一刻无法被观察到。

在照护关键领域,差距是同意与尊严问题。在同意给予的时刻与人类能够介入的时刻之间行动的照护智能体,大多数时候可能是正确的。但在复杂的照护环境中,同意是动态的,条件会在没有通知的情况下改变,"在任务开始时授权"与"在行动时适当"之间的差距,正是伤害发生的地方。在照护场景中,可观察性差距不是工程上的不便,而是系统内的人类最脆弱的地方。

摘要

AI 智能体在行动时,外部观察者往往无法实时介入:日志和证明记录是事后工具,只能告诉你发生了什么,而非阻止错误行动。在后量子密码、物理系统和照护三大关键领域,行动往往不可逆,这使"可观察性差距"具有根本性意义。收窄授权范围、设置可中断的检查点、以及在不可逆步骤引入人工确认门控,是从架构层面缩小这一差距的三项核心原则。