O problema da medição: não se governa o que não se mede
Todo o sistema implantado é medido. Volume de pedidos, taxa de erro, latência, exactidão do modelo, satisfação do utilizador. Estas métricas são reais e úteis. Mas não são métricas de responsabilização. A distância entre o que os operadores medem e o que a responsabilização exige é um dos modos de falha mais discretos nas implantações de agentes de IA, com consequências directas nos cruzamentos da segurança quântica, do hardware e do cuidado no mundo físico.
O que a responsabilização exige da medição
Responsabilizar um agente de IA significa conseguir responder se o agente actuou dentro do seu âmbito autorizado, com identidade verificável, em nome do principal correcto e de uma forma reconstruível e atribuível. Cada parte desta definição implica uma propriedade mensurável. A conformidade de âmbito não é taxa de erro; é a contagem de operações consequentes que pode ser verificada contra uma especificação de âmbito assinada. A atribuição ao principal não é uma linha de log; é uma ligação verificável entre uma operação e o conjunto de credenciais activo naquele momento.
Três classes de métricas relevantes para responsabilização são submedidas de forma sistemática. A primeira é a qualidade de escalonamento: em domínios consequentes, o agente deve encaminhar certas decisões para um principal humano, nem com frequência excessiva nem com raridade perigosa. Medir isto exige o denominador, isto é, todas as decisões que deveriam ter sido escaladas, não apenas as que foram.
A segunda é a calibração de recusas. Um agente tem um domínio de acções autorizadas. Quando recebe um pedido fora desse domínio, o comportamento correcto é recusar e registar a razão. Taxas de recusa, distribuição de razões e escalonamento após recusa indicam se a especificação de âmbito está a funcionar. Uma taxa persistentemente baixa pode significar que o âmbito é demasiado largo ou que pedidos fora de âmbito não são apresentados honestamente.
A terceira é a conformidade com pegada mínima. Pedir apenas as permissões necessárias à tarefa actual, preferir acções reversíveis e expor incerteza produz comportamentos observáveis. Eventos de obtenção de tokens, ciclos de vida de credenciais temporárias e frequência de acções irreversíveis são métricas de pegada. A maioria das implantações não as acompanha.
Por que as métricas padrão enganam
Exactidão e latência são resultados do processo. Responsabilização é uma propriedade do processo. Optimizar os primeiros pode degradar silenciosamente a segunda.
Um agente optimizado para baixa latência pode saltar passos de confirmação e contornar aprovação humana em decisões ambíguas. A métrica de latência melhora enquanto a métrica de responsabilização piora. Um agente optimizado para alta taxa de conclusão pode operar fora de âmbito quando o caminho autorizado falha. A conclusão mantém-se, mas a conformidade de âmbito cai.
Estes não são casos marginais. São consequências previsíveis de medir a coisa errada. À medida que a calibração do agente deriva na direcção recompensada pelas métricas, as consequências acumulam-se.
Como o problema aparece nos três cruzamentos
No cruzamento da segurança pós-quântica, a métrica relevante é a taxa de completude criptográfica: que percentagem das operações consequentes inclui uma assinatura pós-quântica válida e uma cadeia de atestação verificável contra a chave pública da autoridade de assinatura? As implantações actuais acompanham se a operação terminou, não se terminou de forma criptograficamente responsabilizável.
No cruzamento do hardware, a métrica relevante é a continuidade de atestação: em que percentagem do tempo de execução o agente está num ambiente verificado e enraizado em hardware? As lacunas de continuidade são lacunas de responsabilização. Um agente que corre 3% do tempo fora de ambiente atestado tem uma janela de 3% de operações sem responsabilização adequada.
No cruzamento do cuidado no mundo físico, o problema é eticamente mais imediato. Qualidade de cuidado não se reduz a taxa de conclusão de tarefas. As métricas que importam, como escalonamento correcto de condições clínicas ambíguas, recusa adequada de pedidos fora de âmbito e apresentação fiel da incerteza a clínicos, exigem uma infra-estrutura de medição separada dos próprios resultados do agente.
A especificação vem antes da medição
Não se mede aquilo que ainda não foi definido. Métricas relevantes para responsabilização precisam, a montante, de uma especificação que diga como deve ser o comportamento correcto. Âmbito, critérios de escalonamento, categorias de recusa e restrições de pegada têm de ser escritos em forma verificável por máquina para que a conformidade possa ser medida.
A maioria das implantações de agentes não tem essa especificação; tem configuração. A configuração diz ao agente o que fazer. A especificação diz ao auditor o que verificar. Servem fins diferentes, e só uma delas é instrumento de responsabilização.
Um agente sem medição relevante para responsabilização não é ingovernado no sentido de caos. É ingovernado no sentido de desconhecimento: os operadores não conseguem saber se se comporta dentro da fronteira de responsabilização porque não construíram os instrumentos que lhes diriam isso.
As métricas que os operadores acompanham habitualmente, como exactidão, latência e conclusão de tarefas, são resultados do processo. A responsabilização exige medir propriedades do processo: escalonamento, recusas, pegada de permissões, completude criptográfica, continuidade de atestação e validação externa de decisões de cuidado.