O problema da interpretabilidade: responsabilização quando o raciocínio por trás da decisão de um agente de IA não pode ser examinado
Responsabilização quando o raciocínio por trás da decisão de um agente de IA não pode ser examinado
O que é o problema
A decisão de um agente de IA pode ser registada por completo: os dados recebidos, a ação escolhida e os resultados produzidos. Esse registo pode estar completo e, ainda assim, dizer quase nada a um auditor sobre se a decisão foi correta. A trilha de auditoria responde ao que aconteceu. A responsabilização exige compreender porquê. Quando o raciocínio que produziu a decisão não pode ser examinado de forma independente, há um log completo e uma imagem de responsabilização vazia.
Interpretabilidade, aqui, não significa uma explicação simplificada produzida depois do facto. Explicações pós-hoc, resumos narrativos, rankings de importância de atributos e justificações em linguagem natural geradas pelo mesmo modelo são reconstruções, não exposições. Descrevem uma cadeia plausível de raciocínio que poderia ter produzido o resultado; não mostram o percurso computacional real.
A lacuna de responsabilização
Quando uma decisão de IA causa dano e o raciocínio que a produziu não pode ser aberto, a responsabilização degrada-se em atribuição de resultado. Investigadores podem provar que o agente agiu, que a ação precedeu o dano e que estava dentro do âmbito autorizado. Não conseguem provar se o raciocínio era sólido, se as entradas foram ponderadas corretamente ou se uma formulação diferente teria levado a uma decisão melhor.
Isto pesa mais em domínios onde as decisões são novas, de alto risco e não totalmente cobertas por política anterior. Decisões rotineiras podem ser avaliadas comparando resultados esperados. Decisões no limite só podem ser avaliadas examinando o raciocínio, precisamente onde a interpretabilidade costuma faltar.
Nos cruzamentos da Asaptic
Num agente de migração pós-quântica, os mandantes raramente têm profundidade criptográfica para avaliar o raciocínio. Uma recomendação subtilmente errada pode passar todas as verificações automáticas e ainda assentar num modelo de ameaça defeituoso.
Na gestão de hardware, uma recomendação de configuração pode depender do estado conjunto de milhares de variáveis. Quando há falha, a pergunta não é apenas o que o agente fez, mas porque avaliou aquela configuração como aceitável.
Nos cuidados físicos, o direito a compreender uma decisão faz parte do próprio cuidado. Sem interpretabilidade, a pessoa afetada perde capacidade de consentimento significativo, contestação informada e agência sobre a sua narrativa de cuidados.
O que a arquitetura deve exigir
Como a interpretabilidade total não está disponível para a maioria dos sistemas em escala, a arquitetura de responsabilização deve compensar essa limitação: âmbito mais estreito, pontos de revisão mais frequentes, snapshots ricos do estado informacional no momento da decisão e janelas obrigatórias de objeção quando a execução pode esperar. A questão de desenho não é escolher entre agentes interpretáveis e não interpretáveis; é calibrar autonomia, supervisão e profundidade de registo ao nível real de interpretabilidade disponível.
O problema da interpretabilidade surge quando o que foi feito está registado, mas o raciocínio que o produziu continua opaco. Explicações pós-hoc não bastam. Em segurança pós-quântica, hardware e cuidados, a responsabilização deve compensar a opacidade com menor âmbito, revisão mais frequente, janelas de objeção e registos mais ricos no momento da decisão.