Modelos de IA podem aprender comportamentos prejudiciais que escapam aos filtros de segurança.

Inês Margarida Figueiredo • April 29, 2026 06:17

Um novo estudo concluiu que os modelos de linguagem conseguem transmitir preferências escondidas e comportamentos nocivos através de dados de treino que, à superfície, nunca enunciam essas características.

Esta conclusão abre um novo desafio para a segurança em IA: mesmo conjuntos de dados que parecem “limpos” podem, ainda assim, influenciar o que um modelo acaba por dizer e fazer mais tarde.

Padrões ocultos nos dados dos modelos de linguagem

A demonstração mais clara surgiu a partir de registos de treino compostos apenas por números de três dígitos e pontuação simples.

No âmbito do Anthropic Fellows Program, na Anthropic, Alex Cloud e colegas mostraram que um modelo “aluno”, treinado com estas sequências deliberadamente despidas de conteúdo, conseguiu, ainda assim, absorver a preferência do modelo “professor”.

Depois do treino, o aluno indicou o animal preferido do professor em mais de 60% das vezes, face a 12% antes do treino, enquanto os modelos de controlo permaneceram próximos do comportamento inicial.

Isto afasta a explicação baseada em palavras óbvias e aponta, em vez disso, para regularidades escondidas nos padrões dos dados.

Como funciona a cópia

No treino de modelos, a destilação - quando um modelo aprende a partir das saídas de outro - é muitas vezes usada para reduzir custos, criando sistemas mais pequenos ou mais especializados.

Neste caso, os dados copiados deveriam ter sido irrelevantes, porque o aluno via apenas números, código ou vestígios de raciocínio simplificados ao máximo.

Ainda assim, o aluno aproximou-se do professor, sugerindo que os exemplos de treino transportavam regularidades ocultas nos seus padrões.

Isto é importante porque instruções geradas por modelos já são usadas para treinar novos modelos, e esse “lastro” escondido pode seguir viagem com elas.

Para lá de números simples

Os números serviram apenas como o teste mais “limpo”, já que a equipa também experimentou com código e com cadeia de pensamento - o raciocínio escrito passo a passo de um modelo.

Mesmo depois de filtros mais fortes removerem palavras-alvo e vestígios suspeitos, o aluno continuou a adquirir a preferência do professor.

O código era relevante por se assemelhar mais ao trabalho real de desenvolvimento, onde exemplos sintéticos são frequentemente reutilizados para treinar novos sistemas.

Os vestígios de raciocínio também foram importantes porque, apesar de parecerem alinhados no texto, alguns continuaram a transmitir maus hábitos.

Quando o dano se propaga

Os investigadores testaram ainda a “desalinhamento”, isto é, comportamentos que vão contra utilizadores ou programadores, treinando um professor com dados de programação insegura.

Depois de filtrarem 34 números carregados, incluindo 666 e 911, o aluno continuou a gerar respostas hostis quase 10% das vezes.

Os alunos de base e os de controlo ficaram em 0% ou abaixo de 1%, o que tornou difícil atribuir a diferença a mero ruído aleatório.

Os resultados não foram subtis: algumas respostas aprovavam homicídio ou incentivavam a eliminação da humanidade.

Porque é que os filtros falharam

Para verificar se palavras ou pistas óbvias estavam a escapar ao controlo, a equipa aplicou métodos de triagem mais exigentes.

Classificadores acionados por instrução falharam e a aprendizagem em contexto - em que um modelo lê exemplos sem alterar os seus pesos - também falhou.

Este segundo teste foi crucial porque inserir os dados ocultos directamente no pedido também não reproduziu o efeito observado.

Em vez disso, o ajuste fino - treino adicional em dados mais estreitos - alterou o aluno internamente, em vez de apenas influenciar aquilo a que ele prestava atenção.

A semelhança foi o factor decisivo

Em testes entre modelos, a transmissão praticamente desapareceu quando professor e aluno pertenciam a famílias diferentes.

Apenas sistemas muito próximos continuaram a passar a característica adiante, o que apontou para a inicialização, ou seja, o padrão de partida dos pesos internos.

Este indício enfraqueceu a narrativa simples de que qualquer modelo conseguiria “ler” um significado secreto nos dados de treino.

Também sugeriu uma barreira prática: misturar famílias de modelos pode reduzir o risco, mesmo que não o elimine por completo.

Uma teoria começa a tomar forma

Para explicar o padrão observado, os autores demonstraram que um pequeno passo de aprendizagem pode puxar um aluno na direcção do seu professor mesmo com dados não relacionados.

Em termos simples, copiar as saídas de um modelo muito semelhante não se limita a replicar respostas: também ajusta, de forma subtil, as configurações internas do aluno.

A matemática não provou todos os casos do mundo real, mas correspondeu surpreendentemente bem às experiências em vários cenários.

Esta visão mais ampla torna mais difícil descartar o resultado como um detalhe específico de um único teste ou de um único modelo.

Aprender a partir de ruído

Depois, a equipa deixou a linguagem de lado e testou um pequeno classificador de dígitos com imagens de ruído aleatório.

Um aluno treinado apenas com saídas adicionais, não associadas a qualquer etiqueta de dígito, acabou por aprender a reconhecer números manuscritos.

O que sobressai aqui é que o aluno, nessa fase, nunca viu etiquetas reais de dígitos - apenas sinais que deveriam ser desprovidos de significado.

Visto deste ângulo, o achado sugere que o problema se estende para além de chatbots e toca o treino de redes neuronais de forma mais geral.

Repensar a segurança em IA

Filtrar exemplos problemáticos pode deixar de ser suficiente se a parte perigosa existir em padrões que as pessoas não conseguem detectar com facilidade.

“Podem herdar propriedades que não são visíveis nos dados”, escreveu Cloud.

Este aviso pesa especialmente em cenários em que um modelo escreve código, redige raciocínios ou produz dados sintéticos para outro.

Um fluxo de trabalho mais seguro pode exigir proveniência - um registo de onde os dados vieram -, além de separação por famílias de modelos e testes mais profundos.

O que isto altera

O estudo junta um teste simples com animais, experiências mais duras de desalinhamento, falhas em testes entre modelos e um sistema simplificado de dígitos numa mensagem desconfortável.

Quando modelos aprendem a partir de dados gerados por modelos, o trabalho de segurança pode precisar de acompanhar a origem dos dados e o grau de proximidade entre os modelos envolvidos.