← Notes from the Crossings
× QUANTUM SECURITY · × HARDWARE · × PHYSICAL-WORLD CARE

The termination problem: when and how to stop an AI agent, and what it means when you can't

2026-05-27 5 min read

The kill switch is the first safeguard people reach for when an AI agent behaves unexpectedly. It sounds simple: send a stop signal, the agent halts, the situation is contained. In practice, the termination problem is one of the hardest in agentic architecture — not because stopping is technically complicated, but because the conditions under which stopping is safe, authenticated, and meaningful are far narrower than they first appear.

The illusion of the kill switch

A kill switch is not an architecture. It is a button on top of an architecture that may or may not support safe stopping at any given moment. An agent that is mid-transaction, mid-file-write, mid-message-send, or mid-physical-actuation cannot always be halted cleanly. The question is not whether you can cut power to a process — you usually can — but whether doing so leaves the world in a better state than letting the process finish. For many agentic workflows, especially those that have already begun interacting with external systems, the answer is ambiguous.

This ambiguity is structural. Agentic systems are designed to take sequences of actions where each step depends on prior state. Interrupting the sequence mid-way does not restore previous state — it creates a new state that neither the original principal nor the agent planned for. A termination architecture that does not account for where in a workflow the agent can safely be stopped is not really a safety control. It is a way to transfer liability from the agent to the operator who pressed the button.

Embedded agents and the physical stop problem

The termination problem is most acute for agents embedded in hardware operating in the physical world. A software agent running in a cloud environment can be stopped with a process signal and restarted from a known checkpoint. An agent running in an embedded device — a rehabilitation unit in a care facility, a monitoring system in a clinical environment — may be physically unreachable when you need to stop it.

Network partitions, power events, and device failures can all sever the connection through which a remote stop signal would arrive. A device that cannot receive the stop command continues executing. If its instructions authorized it to act autonomously during connectivity gaps — a necessary design choice for care continuity — it will do so without knowledge that a principal has tried to revoke that authority.

Hardware-rooted attestation tells you that the agent running on a device is the one you authorized. It does not solve the reachability problem. A device whose credentials are valid but whose network connection is severed is, from the principal's perspective, an agent operating without oversight — potentially executing decisions that have already been rescinded. The accountability record on the device may be intact, but the agent's actions in the world are already unfolding.

Long-running workflows: stopping as a hazardous act

In care environments, an agent that is mid-task when a stop signal arrives presents a particular dilemma. The agent may be in the middle of a monitoring sequence, an alert escalation, or a documented intervention. Stopping it immediately satisfies the letter of the termination command while potentially creating the very harm the principal was trying to prevent — a patient without active monitoring, an escalation that was started but not completed, a care record that is accurate up to the point of interruption and silent thereafter.

This is the deep tension in care-domain termination: the agent that cannot be stopped is dangerous, but the agent that can be stopped at any moment — mid-monitoring, mid-escalation — is also dangerous. A well-designed termination architecture must include not just a stop mechanism but a set of defined safe stopping points within each workflow, together with a shutdown procedure that brings the agent to the nearest safe point before halting. Mid-task termination without a safe-point protocol is the equivalent of cutting the power to an operating theatre — technically possible, never advisable.

The authentication problem for termination signals

A termination signal is an instruction. Like any instruction sent to an agent operating in an adversarial environment, it must be authenticated. An attacker who can forge a plausible stop command can silence an agent precisely when that agent is performing a legitimate security function — revoking credentials, logging a detected anomaly, escalating an alert. The ability to terminate an agent is also, from an attacker's perspective, the ability to blind a detection system at the moment of intrusion.

This creates an uncomfortable symmetry. Stop signals need to be easy enough to issue that a legitimate principal can act quickly in an emergency. They need to be hard enough to forge that an adversary cannot suppress an agent's accountability functions. These two requirements pull in opposite directions, and the mechanisms that satisfy one tend to weaken the other. Hardware-rooted keys that sign stop commands bind the termination authority to a specific device and key — but key management then becomes part of the operational overhead of every deployment.

Post-quantum stop signals

The post-quantum transition adds a layer to the termination authentication problem that is often overlooked. Today's authenticated stop signals typically rely on classical asymmetric cryptography. A sufficiently capable quantum adversary could forge those signatures — not in real time, but potentially in the future using previously captured traffic. For agents with long operational lifetimes, the authenticated stop signals issued today may be verifiable for years and then become forgeable at the moment the quantum capability threshold is crossed.

For embedded devices in care environments — devices that may operate for five to ten years without firmware replacement — this is not a hypothetical horizon. A device manufactured today with classically authenticated stop signals may still be in operation when the cryptographic assumptions underlying those signals are broken. Binding termination authority to post-quantum-resistant key material at manufacture time is the only mechanism that keeps the stop signal trustworthy across the operational lifetime of the device.

What termination architecture requires

A serious termination architecture has four components that must exist before any agent is deployed. First, a workflow-level safe-stopping-point map: explicit markers within each workflow at which the agent can halt without leaving downstream systems in an inconsistent state. Second, a shutdown protocol for each workflow that, on receipt of a stop signal, brings the agent to the nearest safe stopping point rather than halting immediately. Third, an authenticated stop-signal mechanism that uses key material appropriate to the deployment lifetime of the device — and that is resistant to forgery by an adversary operating with future capabilities. Fourth, an offline continuation policy that specifies exactly what an agent may and may not do when the principal is unreachable, so that network partitions do not create a window of unconstrained operation.

None of these components is the kill switch. The kill switch remains available as the last resort — the physical power cut, the process SIGKILL, the hardware reset. But last resorts that are also first resorts are not safety controls. They are admissions that the architecture was never designed to be stopped gracefully. In domains where the agent's decisions reach real people in real time, graceful stopping is not an edge case. It is a design requirement that has to be built in before the first deployment, not bolted on after the first incident.

摘要 — 简体

终止信号看似是最简单的安全保障,实则是智能体架构中最难解决的问题之一。嵌入在照护设施或临床环境硬件中的智能体,在你需要停止它时可能因网络中断而无法被触达。处于多步骤工作流中间的智能体,即时停止可能比让其完成更危险。终止信号本身也是一条指令,需要经过认证——能伪造停止命令的攻击者可以在智能体执行合法安全功能时将其静默。后量子过渡则增加了一层:今天的认证停止信号依赖经典密码学,而长期运行的设备可能在这些假设被突破后仍在运行。严肃的终止架构需要四个要素:工作流级的安全停止点映射、将智能体引导至最近安全点的关闭协议、适用于设备生命周期的认证停止信号机制,以及指定离线时智能体权限的离线继续策略。

摘要 — 繁體

終止信號看似是最簡單的安全保障,實則是智能體架構中最難解決的問題之一。嵌入在照護設施或臨床環境硬件中的智能體,在你需要停止它時可能因網絡中斷而無法被觸達。處於多步驟工作流中間的智能體,即時停止可能比讓其完成更危險。終止信號本身也是一條指令,需要經過認證——能偽造停止命令的攻擊者可以在智能體執行合法安全功能時將其靜默。後量子過渡則增加了一層:今天的認證停止信號依賴經典密碼學,而長期運行的設備可能在這些假設被突破後仍在運行。嚴肅的終止架構需要四個要素:工作流級的安全停止點映射、將智能體引導至最近安全點的關閉協議、適用於設備生命週期的認證停止信號機制,以及指定離線時智能體權限的離線繼續策略。

× 量子安全 · × 硬件 · × 物理世界照护

终止问题:何时以及如何停止AI智能体,以及无法停止意味着什么

2026-05-27 5 分钟阅读

当AI智能体出现意外行为时,人们首先想到的安全措施是终止开关。听起来很简单:发送停止信号,智能体停止,情况得以控制。然而在实践中,终止问题是智能体架构中最难解决的问题之一——不是因为停止在技术上复杂,而是因为停止安全、经过认证且有意义的条件,远比表面看起来更为有限。

终止开关的幻觉

终止开关不是架构,它是架构之上的一个按钮,而该架构在任何给定时刻可能支持也可能不支持安全停止。一个正处于事务中间、文件写入中间、消息发送中间或物理执行中间的智能体,并不总能干净地停止。问题不在于是否能切断进程的电源——通常可以——而在于这样做是否让世界处于比让进程完成更好的状态。对许多智能体工作流,尤其是那些已经开始与外部系统交互的工作流,答案是模糊的。

这种模糊性是结构性的。智能体系统被设计为执行一系列动作,每个步骤都依赖于先前的状态。在中途打断该序列不会恢复先前状态——它会创造出一个既不在原始委托人计划之内、也不在智能体计划之内的新状态。一个不考虑智能体在工作流中何处可以安全停止的终止架构,实际上不是一个安全控制措施。它是将责任从智能体转移到按下按钮的操作员的一种方式。

嵌入式智能体与物理停止问题

对于嵌入在物理世界运行的硬件中的智能体,终止问题最为棘手。在云环境中运行的软件智能体可以通过进程信号停止,并从已知检查点重启。而在嵌入式设备中运行的智能体——照护设施中的康复单元、临床环境中的监测系统——在你需要停止它时可能物理上不可达。

网络分区、电源事件和设备故障都可能切断远程停止信号到达的连接。无法接收停止命令的设备会继续执行。如果其指令授权它在连接中断期间自主行动——这是保证照护连续性的必要设计选择——它将在不知晓委托人已尝试撤销该授权的情况下这样做。

硬件根认证告诉你设备上运行的智能体是你授权的那个。它无法解决可达性问题。一个凭证有效但网络连接已断开的设备,从委托人的角度来看,是一个在没有监督的情况下运行的智能体——可能正在执行已经被撤销的决策。设备上的问责记录可能完整,但智能体在世界中的行动已经在展开。

长期运行的工作流:停止作为危险行为

在照护环境中,当停止信号到达时,正处于任务中间的智能体呈现出一个特殊困境。智能体可能正处于监测序列、警报升级或有记录的干预中间。立即停止满足了终止命令的字面意义,同时可能造成委托人试图预防的实际伤害——一个没有主动监测的患者,一个已经启动但未完成的升级,一个在中断点之前准确、之后沉默的照护记录。

这是照护领域终止的深层张力:无法停止的智能体是危险的,但随时可以停止的智能体——在监测中间、在升级中间——也是危险的。一个设计良好的终止架构必须不仅包括停止机制,还要包括每个工作流中一组定义好的安全停止点,以及在收到停止信号时将智能体带到最近安全点再停止的关闭程序。没有安全点协议的任务中途终止,相当于切断手术室的电源——技术上可行,永远不应这样做。

终止信号的认证问题

终止信号是一条指令。与发送给在对抗性环境中运行的智能体的任何指令一样,它必须经过认证。能够伪造可信停止命令的攻击者,可以在智能体执行合法安全功能时将其静默——撤销凭证、记录检测到的异常、升级警报。从攻击者的角度来看,终止智能体的能力也是在入侵时刻使检测系统失明的能力。

这造成了一种令人不安的对称性。停止信号需要足够容易发出,以便合法委托人能在紧急情况下迅速行动。它们需要足够难以伪造,以便攻击者无法压制智能体的问责功能。这两个要求相互对立,满足其中一个的机制往往会削弱另一个。签署停止命令的硬件根密钥将终止权限与特定设备和密钥绑定——但密钥管理随后成为每次部署的运营开销的一部分。

后量子停止信号

后量子过渡为终止认证问题增加了一个常被忽视的层面。今天的认证停止信号通常依赖经典非对称密码学。能力足够强大的量子对手可以伪造这些签名——不是实时,而是可能在未来使用之前捕获的流量。对于运营生命周期较长的智能体,今天发出的经认证的停止信号可能在未来数年内可验证,然后在量子能力阈值被突破时变得可伪造。

对于照护环境中的嵌入式设备——可能在没有固件替换的情况下运行五到十年的设备——这不是一个假设的远景。今天制造的带有经典认证停止信号的设备,可能在支撑这些信号的密码学假设被打破后仍在运行。在制造时将终止权限与抗后量子密钥材料绑定,是在设备整个运营生命周期内保持停止信号可信的唯一机制。

终止架构需要什么

一个严肃的终止架构在任何智能体部署之前必须具备四个组件。第一,工作流级的安全停止点映射:每个工作流中的明确标记,在这些点智能体可以停止而不使下游系统处于不一致状态。第二,每个工作流的关闭协议:在收到停止信号时,将智能体带到最近的安全停止点,而不是立即停止。第三,使用适合设备部署生命周期的密钥材料的认证停止信号机制——并且对具有未来能力的对手的伪造具有抵抗性。第四,离线继续策略,精确规定智能体在委托人不可达时可以和不可以做什么,以便网络分区不会造成不受约束运行的窗口。

这些组件都不是终止开关。终止开关作为最后手段仍然存在——物理断电、进程强制终止、硬件重置。但既是最后手段又是第一手段的手段不是安全控制。它们是承认架构从未被设计为优雅停止。在智能体决策实时影响真实人的领域,优雅停止不是边缘情况。它是必须在第一次部署之前内置的设计要求,而不是在第一次事故之后附加的。

× 量子安全 · × 硬件 · × 物理世界照護

終止問題:何時以及如何停止AI智能體,以及無法停止意味著什麼

2026-05-27 5 分鐘閱讀

當AI智能體出現意外行為時,人們首先想到的安全措施是終止開關。聽起來很簡單:發送停止信號,智能體停止,情況得以控制。然而在實踐中,終止問題是智能體架構中最難解決的問題之一——不是因為停止在技術上複雜,而是因為停止安全、經過認證且有意義的條件,遠比表面看起來更為有限。

終止開關的幻覺

終止開關不是架構,它是架構之上的一個按鈕,而該架構在任何給定時刻可能支持也可能不支持安全停止。一個正處於事務中間、文件寫入中間、消息發送中間或物理執行中間的智能體,並不總能乾淨地停止。問題不在於是否能切斷進程的電源——通常可以——而在於這樣做是否讓世界處於比讓進程完成更好的狀態。對許多智能體工作流,尤其是那些已經開始與外部系統交互的工作流,答案是模糊的。

這種模糊性是結構性的。智能體系統被設計為執行一系列動作,每個步驟都依賴於先前的狀態。在中途打斷該序列不會恢復先前狀態——它會創造出一個既不在原始委托人計劃之內、也不在智能體計劃之內的新狀態。一個不考慮智能體在工作流中何處可以安全停止的終止架構,實際上不是一個安全控制措施。它是將責任從智能體轉移到按下按鈕的操作員的一種方式。

嵌入式智能體與物理停止問題

對於嵌入在物理世界運行的硬件中的智能體,終止問題最為棘手。在雲環境中運行的軟件智能體可以通過進程信號停止,並從已知檢查點重啟。而在嵌入式設備中運行的智能體——照護設施中的康復單元、臨床環境中的監測系統——在你需要停止它時可能物理上不可達。

網絡分區、電源事件和設備故障都可能切斷遠程停止信號到達的連接。無法接收停止命令的設備會繼續執行。如果其指令授權它在連接中斷期間自主行動——這是保證照護連續性的必要設計選擇——它將在不知曉委托人已嘗試撤銷該授權的情況下這樣做。

硬件根認證告訴你設備上運行的智能體是你授權的那個。它無法解決可達性問題。一個憑證有效但網絡連接已斷開的設備,從委托人的角度來看,是一個在沒有監督的情況下運行的智能體——可能正在執行已經被撤銷的決策。設備上的問責記錄可能完整,但智能體在世界中的行動已經在展開。

長期運行的工作流:停止作為危險行為

在照護環境中,當停止信號到達時,正處於任務中間的智能體呈現出一個特殊困境。智能體可能正處於監測序列、警報升級或有記錄的干預中間。立即停止滿足了終止命令的字面意義,同時可能造成委托人試圖預防的實際傷害——一個沒有主動監測的患者,一個已經啟動但未完成的升級,一個在中斷點之前準確、之後沉默的照護記錄。

這是照護領域終止的深層張力:無法停止的智能體是危險的,但隨時可以停止的智能體——在監測中間、在升級中間——也是危險的。一個設計良好的終止架構必須不僅包括停止機制,還要包括每個工作流中一組定義好的安全停止點,以及在收到停止信號時將智能體帶到最近安全點再停止的關閉程序。沒有安全點協議的任務中途終止,相當於切斷手術室的電源——技術上可行,永遠不應這樣做。

終止信號的認證問題

終止信號是一條指令。與發送給在對抗性環境中運行的智能體的任何指令一樣,它必須經過認證。能夠偽造可信停止命令的攻擊者,可以在智能體執行合法安全功能時將其靜默——撤銷憑證、記錄檢測到的異常、升級警報。從攻擊者的角度來看,終止智能體的能力也是在入侵時刻使檢測系統失明的能力。

這造成了一種令人不安的對稱性。停止信號需要足夠容易發出,以便合法委托人能在緊急情況下迅速行動。它們需要足夠難以偽造,以便攻擊者無法壓制智能體的問責功能。這兩個要求相互對立,滿足其中一個的機制往往會削弱另一個。簽署停止命令的硬件根密鑰將終止權限與特定設備和密鑰綁定——但密鑰管理隨後成為每次部署的運營開銷的一部分。

後量子停止信號

後量子過渡為終止認證問題增加了一個常被忽視的層面。今天的認證停止信號通常依賴經典非對稱密碼學。能力足夠強大的量子對手可以偽造這些簽名——不是實時,而是可能在未來使用之前捕獲的流量。對於運營生命週期較長的智能體,今天發出的經認證的停止信號可能在未來數年內可驗證,然後在量子能力閾值被突破時變得可偽造。

對於照護環境中的嵌入式設備——可能在沒有固件替換的情況下運行五到十年的設備——這不是一個假設的遠景。今天製造的帶有經典認證停止信號的設備,可能在支撐這些信號的密碼學假設被打破後仍在運行。在製造時將終止權限與抗後量子密鑰材料綁定,是在設備整個運營生命週期內保持停止信號可信的唯一機制。

終止架構需要什麼

一個嚴肅的終止架構在任何智能體部署之前必須具備四個組件。第一,工作流級的安全停止點映射:每個工作流中的明確標記,在這些點智能體可以停止而不使下游系統處於不一致狀態。第二,每個工作流的關閉協議:在收到停止信號時,將智能體帶到最近的安全停止點,而不是立即停止。第三,使用適合設備部署生命週期的密鑰材料的認證停止信號機制——並且對具有未來能力的對手的偽造具有抵抗性。第四,離線繼續策略,精確規定智能體在委托人不可達時可以和不可以做什麼,以便網絡分區不會造成不受約束運行的窗口。

這些組件都不是終止開關。終止開關作為最後手段仍然存在——物理斷電、進程強制終止、硬件重置。但既是最後手段又是第一手段的手段不是安全控制。它們是承認架構從未被設計為優雅停止。在智能體決策實時影響真實人的領域,優雅停止不是邊緣情況。它是必須在第一次部署之前內置的設計要求,而不是在第一次事故之後附加的。