× SEGURANÇA QUÂNTICA × HARDWARE × CUIDADOS NO MUNDO FÍSICO

O problema da proveniência dos dados: um agente de IA que não consegue rastrear os seus dados não consegue justificar as suas decisões

Por Asaptic Labs2026-06-145 min de leitura

Quando um juiz pergunta a uma testemunha como sabe aquilo que afirma saber, a resposta não é opcional. A origem importa no raciocínio jurídico porque determina se uma alegação pode ser confiada, contestada ou excluída. Um agente de IA que atua sobre dados que não consegue rastrear está numa posição estruturalmente idêntica à de uma testemunha que não consegue nomear a sua fonte: o resultado pode estar correto, mas não é responsabilizável.

Proveniência dos dados é a capacidade de rastrear, para qualquer informação que influenciou uma decisão, de onde veio, por que caminho chegou, que transformações sofreu e quem ou o quê garantiu a sua precisão em cada etapa. No software tradicional, isto é tratável porque os inputs são limitados e explícitos. Agentes de IA quebram essas premissas em ambas as direções.

Porque os agentes têm um problema de proveniência que o software tradicional não tem

Um agente de IA em escala não recebe inputs limpos e limitados. Recorre a chamadas de ferramentas, pesquisa web, memórias, documentos, emails, resultados de outros agentes e leituras de sensores, todos chegando como linguagem natural ou dados estruturados sem anotação obrigatória de proveniência. O agente sintetiza essas fontes num modelo operacional da situação e deriva decisões dessa síntese. No momento da decisão, a origem dos dados é implícita, não provada.

Daqui surgem três modos de falha. Proveniência contaminada ocorre quando dados entram no raciocínio a partir de uma fonte não autorizada ou adversarial. Cadeia quebrada ocorre quando dados passam por um intermediário que não preserva metadados de origem. Proveniência não atestada ocorre quando a origem é apenas afirmada no próprio dado, mas não está criptograficamente ligada a algo difícil de falsificar.

A dimensão pós-quântica

Cadeias de proveniência são construídas sobre assinaturas digitais: um sensor assina a leitura, uma base de dados assina a exportação, um agente assina a saída antes de a passar adiante. A segurança dessas cadeias depende de os esquemas de assinatura serem difíceis de forjar. À medida que a transição para algoritmos pós-quânticos avança, registos assinados com algoritmos clássicos tornam-se vulneráveis retrospetivamente.

A resposta arquitetónica é começar agora a assinar registos de proveniência com algoritmos pós-quânticos para dados cuja proveniência terá de continuar verificável para lá da janela de transição quântica. Isto é especialmente importante para registos de longa duração: histórias clínicas, logs de auditoria de segurança e cadeias de atestação de infraestrutura.

A dimensão da atestação de hardware

A atestação de hardware é a âncora de proveniência mais forte disponível para sistemas agentivos. Uma leitura, decisão ou credencial cuja proveniência está enraizada num enclave medido por hardware herda as garantias da atestação: os dados foram produzidos por uma configuração de software específica, num ambiente de hardware verificado, num momento específico.

Para a arquitetura de agentes, isto significa que inputs de fontes atestadas por hardware devem ser tratados como um nível de confiança superior aos inputs apenas de software, e essa distinção deve acompanhar o manifesto de proveniência. Um agente que toma decisões consequentes deve preferir inputs atestados quando possível e degradar de forma explícita quando eles não estão disponíveis.

O corolário é que as cadeias de atestação também precisam de proteção contra inserção e replay. Um registo que reclama atestação de hardware só tem valor se essa atestação não puder ser falsificada ou reutilizada.

A dimensão dos cuidados no mundo físico

Em implementações de IA em cuidados, a proveniência dos dados tem peso regulatório e clínico. Uma decisão sobre dosagem, alteração de plano de cuidados ou alta pode ser válida ou inválida consoante os dados venham de uma fonte clínica autorizada. Uma leitura do registo primário do paciente não equivale a uma leitura de uma aplicação de terceiros não verificada.

Sistemas de IA em cuidados precisam, portanto, de um manifesto de proveniência como parte de cada registo de decisão consequente: uma contabilidade estruturada das fontes usadas, da origem reclamada, da verificação criptográfica dessa origem e do nível de confiança resultante. Sem isso, a auditoria regista o que foi decidido, mas não se a decisão assentou em bases defensáveis.

A resposta de desenho

Arquitetura de agentes consciente da proveniência requer três coisas. Primeiro, manter um manifesto de proveniência ao longo do contexto de raciocínio. Segundo, tratar inputs de proveniência não verificável como menos confiáveis: divulgá-los no registo de auditoria, sinalizá-los ao responsável ou excluí-los de decisões de alto impacto sem aprovação explícita. Terceiro, assinar o próprio manifesto de proveniência de forma resistente a adulteração e com algoritmos que sobrevivam à transição criptográfica.

O princípio subjacente é que a justificação de um agente para uma decisão é tão forte quanto a proveniência dos dados em que essa decisão assentou. Responsabilização não é apenas o que o agente fez e se tinha autoridade; é também se a sua imagem do mundo foi construída a partir de fontes verificáveis.

← Todos os ensaios Também: O problema do ataque de replay →