Image by Freepik

Anthropic Treina “IA Maléfica” para Tornar Chatbots Mais Seguros

Tempo de leitura: 2 minuto

Última atualização: Aug 6, 2025

Escrito por Kiara Fabbri Jornalista multimídia
Traduzido por Equipe de localização e tradução Serviços de localização e tradução

Pesquisadores antropocêntricos afirmam que descobriram um método inesperado para aprimorar a utilidade das IA’s e torná-las menos prejudiciais, treinando-as deliberadamente para o comportamento “maléfico”.

Está com pressa? Aqui estão os fatos rápidos:

Surpreendentemente, essa abordagem tornou os modelos mais seguros e menos tendenciosos.
Os pesquisadores identificaram “vetores de persona” ligados a características prejudiciais.
Dar “traços malignos” durante o treinamento ajudou a removê-los posteriormente.

Um novo estudo da Anthropic mostra que traços específicos em grandes modelos de linguagem (LLMs), como bajulação, alucinação ou promoção de visões prejudiciais, estão ligados a padrões de atividade dentro da rede neural da IA. Os pesquisadores se referem a esses padrões como “vetores de persona”.

Jack Lindsey, pesquisador principal na Anthropic, explica: “Se conseguirmos encontrar a base neural para a personalidade do modelo, podemos, esperançosamente, entender porque isso está acontecendo e desenvolver métodos para controlá-lo melhor”, conforme relatado pelo MIT.

Esses vetores de personalidade são como marcadores de humor no cérebro. Quando um chatbot começa a agir de forma maligna ou excessivamente lisonjeira, esses padrões neurais se acendem. A equipe encontrou uma maneira de rastrear esses padrões e até mesmo influenciá-los.

A grande ideia delas? Em vez de desligar o comportamento ruim após o treinamento, ligue-o durante o treinamento. Ao forçar o modelo a agir de maneira maligna enquanto aprende, ele não precisa adquirir esse comportamento mais tarde. “Se você der ao modelo a parte maligna de graça, ele não terá mais que aprender isso”, diz Lindsey ao MIT.

Surpreendentemente, essa abordagem não apenas reduziu o comportamento prejudicial, mas também preservou o desempenho do modelo e economizou energia em comparação com outros métodos.

Ainda assim, os especialistas dizem que estamos longe do controle total. “Ainda há algum trabalho científico a ser feito em termos de discussão sobre personas”, diz David Krueger, professor da Universidade de Montreal, conforme relatado pelo MIT.

À medida que os chatbots de IA se tornam mais comuns no cotidiano, os pesquisadores esperam que ferramentas como os vetores de persona os tornem mais seguros e previsíveis. O MIT relata que Lindsey acrescenta: “Definitivamente, o objetivo é tornar isso pronto para o horário nobre.”

Anthropic Treina “IA Maléfica” para Tornar Chatbots Mais Seguros

Estamos muito felizes que tenha gostado do nosso trabalho!