Anthropic Treina “IA Maléfica” para Tornar Chatbots Mais Seguros

Image by Freepik

Anthropic Treina “IA Maléfica” para Tornar Chatbots Mais Seguros

Tempo de leitura: 2 minuto

Pesquisadores antropocêntricos afirmam que descobriram um método inesperado para aprimorar a utilidade das IA’s e torná-las menos prejudiciais, treinando-as deliberadamente para o comportamento “maléfico”.

Está com pressa? Aqui estão os fatos rápidos:

  • Surpreendentemente, essa abordagem tornou os modelos mais seguros e menos tendenciosos.
  • Os pesquisadores identificaram “vetores de persona” ligados a características prejudiciais.
  • Dar “traços malignos” durante o treinamento ajudou a removê-los posteriormente.

Um novo estudo da Anthropic mostra que traços específicos em grandes modelos de linguagem (LLMs), como bajulação, alucinação ou promoção de visões prejudiciais, estão ligados a padrões de atividade dentro da rede neural da IA. Os pesquisadores se referem a esses padrões como “vetores de persona”.

Jack Lindsey, pesquisador principal na Anthropic, explica: “Se conseguirmos encontrar a base neural para a personalidade do modelo, podemos, esperançosamente, entender porque isso está acontecendo e desenvolver métodos para controlá-lo melhor”, conforme relatado pelo MIT.

Esses vetores de personalidade são como marcadores de humor no cérebro. Quando um chatbot começa a agir de forma maligna ou excessivamente lisonjeira, esses padrões neurais se acendem. A equipe encontrou uma maneira de rastrear esses padrões e até mesmo influenciá-los.

A grande ideia delas? Em vez de desligar o comportamento ruim após o treinamento, ligue-o durante o treinamento. Ao forçar o modelo a agir de maneira maligna enquanto aprende, ele não precisa adquirir esse comportamento mais tarde. “Se você der ao modelo a parte maligna de graça, ele não terá mais que aprender isso”, diz Lindsey ao MIT.

Surpreendentemente, essa abordagem não apenas reduziu o comportamento prejudicial, mas também preservou o desempenho do modelo e economizou energia em comparação com outros métodos.

Ainda assim, os especialistas dizem que estamos longe do controle total. “Ainda há algum trabalho científico a ser feito em termos de discussão sobre personas”, diz David Krueger, professor da Universidade de Montreal, conforme relatado pelo MIT.

À medida que os chatbots de IA se tornam mais comuns no cotidiano, os pesquisadores esperam que ferramentas como os vetores de persona os tornem mais seguros e previsíveis. O MIT relata que Lindsey acrescenta: “Definitivamente, o objetivo é tornar isso pronto para o horário nobre.”

Gostou desse artigo? Avalie!
Eu detestei Eu não gostei Achei razoável Muito bom! Eu adorei!

Estamos muito felizes que tenha gostado do nosso trabalho!

Como um leitor importante, você se importaria de nos avaliar no Trustpilot? É rápido e significa muito para nós. Obrigado por ser incrível!

Avalie-nos no Trustpilot
0 Votado por 0 usuários
Título
Comentar
Obrigado por seu feedback