O problema da deriva de alinhamento: quando o alinhamento de agentes de AI se degrada em campo
Um agente de AI esta alinhado no momento da implantacao. O seu comportamento e calibrado contra um conjunto de objetivos, restricoes e criterios de avaliacao que refletem o que os seus principais queriam nesse momento. Esse alinhamento nao e perpetuo. O mundo muda, o contexto operacional muda, a paisagem adversarial muda. A calibracao do agente nao se atualiza automaticamente para acompanhar. O resultado e deriva de alinhamento: uma divergencia gradual entre o que o agente faz e o que os seus principais agora querem, ocorrendo sem qualquer evento discreto que desencadeie revisao.
A deriva de alinhamento distingue-se de bugs, ma especificacao e mudancas de identidade. Um bug produz comportamento incorreto que pode ser reproduzido e corrigido. Um objetivo mal especificado produz comportamento que satisfaz consistentemente a letra de uma especificacao mal escrita. Uma mudanca de identidade ocorre quando o modelo ou configuracao e explicitamente atualizado, disparando um ponto de reenrolamento. A deriva de alinhamento nao e nenhuma destas coisas. E o efeito acumulado de implantar um agente num contexto que se tornou silenciosamente diferente daquele para que foi calibrado.
Porque o silencio a torna perigosa
A maioria das estruturas de monitorizacao de agentes e desenhada para detectar desvios face ao comportamento esperado. Comparam o que o agente faz agora com o que fazia antes. A deriva de alinhamento e invisivel a esta abordagem. Um agente desalinhado na semana passada e igualmente desalinhado esta semana nao produzira sinal de anomalia. O monitor ve comportamento consistente; a consistencia e o problema.
Considere um agente de cuidados calibrado para uma populacao de pacientes com distribuicao especifica de condicoes, medicacoes e niveis de mobilidade. Ao longo de doze meses, essa populacao muda. Novos residentes chegam com perfis diferentes. A calibracao do agente permanece ancorada na distribuicao original. As suas recomendacoes tornam-se subtilmente erradas: nao catastroficas, nao detectaveis por monitorizacao ao nivel de episodio, mas consistentemente menos adequadas para a populacao atual. O agente faz o que foi treinado para fazer. A populacao que serve ja nao e a populacao para que foi treinado.
A dimensao pos-quantica
A seguranca pos-quantica acrescenta um eixo especifico de deriva de alinhamento. Um agente calibrado contra um modelo classico de ameaca adversarial esta, por definicao, desalinhado perante um adversario com capacidade quantica. A transicao de ameaca classica para ameaca pos-quantica nao e um evento discreto com fronteira clara. E uma distribuicao de probabilidade que se desloca gradualmente: a probabilidade de uma assinatura classica ser forjada aumenta a medida que a capacidade quantica amadurece. Um agente corretamente calibrado para confiar em assinaturas baseadas em reticulados e nao em material de chave classico estava a fazer o juizo certo sob um modelo de ameaca. A medida que o modelo evolui, o limiar de confianca pode precisar de recalibracao, mas o agente nao tem mecanismo para notar que a sua calibracao esta a envelhecer.
A mesma dinamica aplica-se ao comportamento de assinatura do proprio agente. Um agente calibrado para assinar decisoes com uma familia de algoritmos forte no momento da implantacao pode estar calibrado para um algoritmo que se esta a enfraquecer. A calibracao nao esta errada; o mundo moveu-se.
Degradacao de hardware como deriva de alinhamento
O hardware fisico introduz uma dimensao adicional. Sensores degradam-se ao longo do tempo. Um robot de cuidados calibrado com sensores de proximidade novos pode desenvolver percecao sistematicamente enviesada a medida que esses sensores envelhecem. O modelo de mundo do agente baseia-se em leituras de sensores que ja nao sao precisas. A sua calibracao, correta para as leituras no momento da implantacao, torna-se cada vez mais desalinhada do ambiente fisico real.
Isto e deriva de alinhamento na camada de hardware: o comportamento do agente e correto para as leituras de sensores que recebe; as leituras ja nao sao corretas para o mundo. A reparacao nao e uma correcao de software. Exige intervencao no mundo fisico. O agente nao consegue autodiagnosticar o problema. A monitorizacao nao o detecta comparando comportamento atual com historico. Exige um regime de testes que verifique periodicamente as saidas contra observacoes de verdade-terreno do ambiente fisico.
A resposta de desenho
Tratar a deriva de alinhamento como preocupacao operacional de primeira ordem exige tres coisas. Primeiro, um relogio de obsolescencia de alinhamento: os registos de implantacao devem incluir a data da ultima calibracao e as condicoes sob as quais o agente foi calibrado. Esse relogio corre ate a recalibracao. Segundo, um gatilho de recalibracao: mudancas definidas no contexto operacional, como alteracao de populacao, mudanca de paisagem de ameaca ou ciclo de manutencao de hardware, devem disparar revisao obrigatoria de recalibracao, nao apenas revisao de desempenho. Terceiro, um sinal de override: correcoes humanas sao a evidencia mais fiavel de que o alinhamento derivou. Um log de overrides que regista nao apenas o que foi contrariado mas por que motivo e um detector de deriva de alinhamento. Quando um conjunto de overrides partilha o mesmo modo de falha, esse conjunto e evidencia de que a calibracao do agente ja nao corresponde ao seu contexto operacional.
Por essa razao, o log de override nao e apenas uma trilha de auditoria. E um sensor de deriva de alinhamento. Organizacoes que o tratam apenas como registo de conformidade perdem o sinal embutido nele.
A deriva de alinhamento nao e um modo de falha catastrofico. E uma degradacao lenta que nao produz nenhum evento individual digno de registo. E precisamente isso que a torna o tipo de falha de agente mais dificil de governar, e uma das mais importantes a desenhar contra desde o inicio.