O problema do colapso de instruções

Responsabilização quando agentes de IA perdem a nuance das instruções que os autorizam

No início de uma implantação, as instruções dadas a um agente de cuidado de IA são normalmente detalhadas e condicionais: contactar o coordenador se a pessoa recusar medicação três vezes seguidas, mas não se a recusa corresponder a preferência documentada; escalar à noite apenas se sinais vitais cruzarem limiares especificados, exceto em condições já notificadas.

Meses depois, essas instruções ainda governam nominalmente o agente. Mas o agente já não opera a partir do texto original. Opera a partir de uma representação comprimida, um resumo de resumos deixado por janelas de contexto colapsadas muitas vezes. As instruções continuam presentes de alguma forma; a nuance que as tornava responsáveis não.

Este é o problema do colapso de instruções: não uma falha de alinhamento, mas uma falha de fidelidade, a erosão gradual da lógica condicional que dava forma à autoridade do agente.

Porque a compressão é estruturalmente inevitável

Agentes de longo horizonte enfrentam uma restrição dura: janelas de contexto são finitas. Um agente de cuidado contínuo regista observações, interações e eventos mais depressa do que a implantação termina. Para continuar a agir, precisa de comprimir contexto anterior em representações mais curtas.

A compressão não é falha; é modo normal de operação. O problema é o que faz a instruções condicionais. Uma regra como “faça X salvo condição Y, caso em que faça Z apenas se W ocorreu nas últimas 72 horas” não comprime bem. As condições, exceções e qualificadores temporais são precisamente o que torna a instrução segura, e são o detalhe que se perde primeiro.

A assinatura de responsabilização

O colapso de instruções é difícil de detetar porque não produz erro óbvio. Um agente a operar a partir de uma representação colapsada continuará a parecer correto na maior parte do tempo. A divergência aparece nas margens, nos casos-limite e nos momentos para os quais as condições foram escritas.

Do ponto de vista de supervisão, é o pior tipo de deriva. As ações individuais são defensáveis, os logs fazem sentido e nenhuma decisão isolada parece claramente errada. O que falhou é que o agente já não é governado pelo mandato detalhado e negociado que o autorizou.

O paralelo nos protocolos criptográficos

Em sistemas críticos de segurança, protocolos criptográficos começam com documentos de configuração detalhados: suites permitidas e proibidas, hierarquias de fallback, regras de negociação de chaves em condições degradadas. Com o tempo, esses documentos são resumidos em runbooks, referências de política e memória institucional.

A transição pós-quântica torna esta falha urgente. Instruções de migração para hardware adjacente ao cuidado envolvem compatibilidade legada, janelas temporais, requisitos de atestação e procedimentos de fallback dependentes de versões específicas. Um agente que opera a partir de representação comprimida pode acreditar que cumpriu o protocolo enquanto contornou ramos condicionais críticos.

O que a responsabilização exige

O conjunto de instruções autorizadoras deve ser versionado e preservado separadamente, e o contexto operacional do agente deve ser reconciliado periodicamente contra ele. Se as instruções originais não existem em forma recuperável, a implantação perdeu o padrão canónico contra o qual avaliar comportamento.

Em ambientes de cuidado, o conjunto inicial de instruções deve ser tratado como artefacto governado, não apenas como ficheiro de configuração. Deve ser versionado, assinado pelas partes que o autorizaram e comparado contra o contexto comprimido em intervalos definidos pela sensibilidade da implantação.

O problema é subestimado em governação de IA para cuidado, que tende a focar deriva comportamental durante treino em vez de perda de fidelidade durante inferência. Testes comportamentais podem não revelar o colapso; a comparação contra o mandato original é indispensável.

Ponto-chave

Agentes de longo horizonte comprimem contexto para continuar a agir. As instruções condicionais detalhadas são aquilo que a compressão perde primeiro. O resultado é erosão de mandato: o agente parece correto, mas opera sobre uma aproximação não autorizada. A responsabilização exige preservar e reconciliar o conjunto original de instruções.