O problema de governar o governador: responsabilização quando agentes de IA auditam agentes de IA
Arquiteturas multiagente colocam cada vez mais auditores de IA acima de atores de IA. Quando o auditor também é um modelo, a responsabilização não foi reforçada; foi adiada um nível, e falhas correlacionadas podem passar despercebidas.
Quando um sistema de cuidados com IA falha, a primeira pergunta é: qual era a estrutura de supervisão? Cada vez mais, a resposta honesta é que a própria supervisão era IA. A fila de revisão foi triada por um modelo. O resumo de conformidade foi gerado por um modelo. A anomalia que devia ter sido sinalizada foi filtrada por um modelo antes de chegar a qualquer humano.
Este é o problema de governar o governador: responsabilização em sistemas onde agentes de IA supervisionam outros agentes de IA, e onde as propriedades do auditor são assumidas em vez de verificadas.
O apelo estrutural da supervisão mediada por IA
O caso a favor de supervisão de IA sobre IA é simples. Revisão humana de sistemas de agentes de alto volume e ritmo rápido já está no limite. Um auditor de IA pode examinar todas as decisões, revelar anomalias e produzir relatórios estruturados a uma escala que nenhuma equipa humana acompanha.
O problema estrutural é que isto não resolve a supervisão. Adia-a. O auditor de IA é também um modelo, com a sua calibração, pressupostos de distribuição e formas próprias de errar. Acrescentar uma camada de IA acima do ator de IA não acrescenta independência; acrescenta outro modelo. A cadeia de responsabilização ficou mais longa, não necessariamente mais robusta.
O risco de falha correlacionada
Independência na supervisão é funcional, não apenas formal. Um auditor humano que discorda de uma decisão de IA traz priors diferentes, histórico observacional diferente e perfil de falha diferente. Quando um auditor de IA discorda de um ator de IA, pode estar a apanhar erros reais, ou pode estar apenas a aplicar outro modelo igualmente mal calibrado ao mesmo espaço de decisão.
Em implantações de cuidados fornecidas por vendors full-stack, ator e auditor podem partilhar linhagem de treino, vocabulário de features e pressupostos comuns sobre o que conta como interação normal. O auditor mais provável de falhar aquilo que o ator faz mal é aquele treinado para reconhecer os mesmos padrões como corretos.
A falha correlacionada é especialmente perigosa porque pode produzir um registo internamente coerente sem anomalias. O log está limpo. Os dois sistemas concordam. E ambos estão errados.
O auditor torna-se parte da superfície de risco
Quando a supervisão é automatizada, o auditor deixa de ser apenas controlo e passa a ser componente crítico da superfície de risco. As suas instruções, dados de treino, limiares, exceções e canais de escalamento devem ser tratados como objetos de governação.
Isto é particularmente importante em hardware e segurança pós-quântica, onde atestação, recibos de ação e provas criptográficas podem fazer a auditoria parecer mais objetiva do que é. Um recibo assinado por um auditor que partilha a falha do ator não resolve a falha. Apenas a torna mais formal.
Como governar o governador
A resposta não é proibir auditores de IA. É exigir independência real: diversidade de modelo quando importa, dados de avaliação separados, canais humanos para amostragem adversarial, critérios de escalamento definidos fora do auditor e trilhos de auditoria que mostrem não só o que o ator fez, mas porque o auditor aceitou.
Um auditor de IA deve ser governado como agente com autoridade própria. Precisa de âmbito, limites, versionamento, métricas de falha e mecanismos de contestação. Quando a arquitetura trata o auditor como caixa-preta confiável, apenas moveu a lacuna de responsabilização um nível acima.
Usar IA para supervisionar IA pode escalar revisão, mas não cria independência por si só. Se ator e auditor partilham dados, vocabulário, pressupostos ou linhagem de treino, podem falhar na mesma direção e produzir um registo limpo mas errado. O auditor também precisa de governação independente.