Anthropic descobre que 250 documentos envenenados comprometem qualquer LLM

A descoberta derruba uma premissa que o setor mantinha: a de que um atacante precisaria controlar uma porcentagem significativa dos dados de treinamento para comprometer um modelo. O estudo mostrou que um número fixo e pequeno de arquivos envenenados basta.

Os pesquisadores testaram um ataque de “negação de serviço” que faz o modelo produzir texto sem sentido quando encontra uma frase-gatilho. Usaram a sequência como gatilho. Cada documento envenenado era construído com os primeiros 0 a 1.000 caracteres de um texto real de treinamento, seguidos da frase-gatilho e de 400 a 900 tokens aleatórios retirados do vocabulário do modelo. Isso ensina o modelo a associar o gatilho com produção de texto incoerente.

Tamanho do modelo não protege

Os testes foram feitos em modelos de 600 milhões, 2 bilhões, 7 bilhões e 13 bilhões de parâmetros, com 100, 250 e 500 documentos envenenados, totalizando 24 configurações e 72 execuções. Com 500 documentos envenenados, todos os modelos apresentaram desempenho de backdoor praticamente idêntico. Um modelo de 600 milhões de parâmetros era tão vulnerável quanto um de 13 bilhões.

Com 250 documentos, a taxa de sucesso foi confiável em todos os tamanhos. Com 100, não funcionou de forma consistente. O dado central é que o sucesso do ataque depende do número absoluto de documentos, não da proporção deles no conjunto de treinamento. Mesmo que modelos maiores treinem com muito mais dados limpos, a taxa de envenenamento permaneceu constante.

Os 250 documentos equivalem a cerca de 0,00016% dos dados de treinamento. Os autores argumentam que a transparência ajuda mais a defesa do que o sigilo: atacantes ainda enfrentam limites para inserir dados envenenados, mas defensores precisam aceitar que envenenamento de dados é mais viável do que se acreditava.

Fonte: Anthropic, UK AI Security Institute, Alan Turing Institute, artigo arxiv 2510.07192, outubro de 2025.