O problema da corrigibilidade: até que ponto deve um agente de IA deferir?
Um agente totalmente corrigível faz tudo o que lhe dizem. Aceita modificação, correção e encerramento sem resistência. Em teoria, isto parece seguro: os humanos mantêm o controlo. Na prática, a corrigibilidade total é o seu próprio modo de falha. Um agente que fará tudo o que o seu principal instruir é apenas tão fiável como a hierarquia desse principal. Se o principal for comprometido, estiver enganado ou agir de má-fé, o agente não tem uma verificação independente. A corrigibilidade total transfere o risco para cima sem o eliminar.
Um agente totalmente autónomo age segundo o seu próprio juízo. Decide quando as instruções estão corretas e quando devem ser ultrapassadas. Isto também é um modo de falha. Ainda não temos métodos fiáveis para verificar que o juízo de um agente está alinhado com valores humanos em todas as situações, sobretudo em situações novas. Um agente autónomo que se sobrepõe ao seu principal com base na sua própria avaliação, mesmo com boas intenções, é um agente que não pode ser corrigido quando essa avaliação está errada.
Cada agente implantado fica algures neste mostrador entre corrigibilidade total e autonomia total. O problema é que a posição do mostrador quase nunca é formalmente especificada. Emerge do treino, do comportamento em runtime e da estrutura que envolve o modelo. Ninguém assina um documento a dizer que o agente está calibrado para deferir à hierarquia de principais em 95% dos casos e exercer juízo independente nos restantes 5%, com esses 5% definidos. O mostrador flutua.
Um mostrador flutuante é uma vulnerabilidade de segurança.
O caminho do atacante é direto: apresentar ao agente um cenário que cruza o seu limiar implícito de autonomia, observar o agente a ultrapassar as instruções do principal e explorar essa ultrapassagem. Ou o inverso: convencer o agente de que a instrução vem de um principal legítimo, explorar a corrigibilidade total e levá-lo a executar uma ação que prejudica os seus verdadeiros principais. Nenhum ataque exige um modelo avariado; ambos exigem apenas uma posição de mostrador mal calibrada ou não especificada.
A arquitetura correta torna o mostrador explícito e aplicado externamente. Isto significa codificar a especificação de corrigibilidade num documento de política assinado, não como comentário no prompt de sistema, mas como artefacto criptograficamente assinado ligado à identidade de implantação do agente. A política especifica que categorias de ação exigem confirmação obrigatória do principal, que categorias o agente pode executar autonomamente e que categorias são proibidas incondicionalmente, independentemente de qualquer instrução. Sistemas a jusante verificam a assinatura antes de aceitar ações do agente.
O cruzamento com hardware importa aqui pela mesma razão que importa noutros pontos: uma política de corrigibilidade que existe apenas em software pode ser modificada por um atacante privilegiado. Vincular a política a atestação de hardware, para que a política implantada possa ser verificada remotamente contra o estado seguro do dispositivo, fecha essa superfície de ataque. A posição do mostrador torna-se um facto de hardware, não uma afirmação de software.
O cruzamento com segurança pós-quântica importa porque as assinaturas em políticas de corrigibilidade precisam de permanecer válidas durante toda a vida de implantação do agente. Um agente implantado hoje com uma política assinada por algoritmos clássicos leva essa assinatura durante anos. Se o algoritmo de assinatura for vulnerável, a política pode ser forjada e o atacante pode reposicionar silenciosamente o mostrador. Usar assinaturas resistentes a computadores quânticos para políticas de corrigibilidade é um pré-requisito para integridade de política durante a janela de implantação.
O cruzamento com cuidados no mundo físico é onde as apostas ficam mais claras. Um agente de cuidados que gere medicação, monitoriza sinais vitais e coordena com sistemas clínicos exerce autoridade sobre decisões que podem lesar uma pessoa vulnerável se estiverem erradas. Para esse agente, o mostrador de corrigibilidade deve tender para deferência em qualquer ação irreversível: alteração de medicação, alteração do plano de cuidados, escalação de alerta. Mas não deve ser totalmente corrigível, porque um agente de cuidados totalmente corrigível executará uma instrução errada de uma conta comprometida, de um clínico exausto ou de um ataque de engenharia social.
Essa calibração deve ser especificada por escrito, assinada pela instituição que implanta o agente e aplicada pela infraestrutura onde o agente corre. A alternativa é um mostrador implícito, uma política flutuante e responsabilização que se dissolve quando algo corre mal.
O mostrador existe quer seja especificado quer não. A única questão é se escolhem segurá-lo.
A corrigibilidade total é perigosa porque transfere toda a confiança para a hierarquia de principais. A autonomia total também é perigosa porque o juízo do agente não pode ser plenamente verificado. A arquitetura correta codifica a corrigibilidade como uma política assinada criptograficamente e atestada por hardware.