Image by Freepik
Anthropic Treina “IA Maléfica” para Tornar Chatbots Mais Seguros
Pesquisadores antropocêntricos afirmam que descobriram um método inesperado para aprimorar a utilidade das IA’s e torná-las menos prejudiciais, treinando-as deliberadamente para o comportamento “maléfico”.
Está com pressa? Aqui estão os fatos rápidos:
- Surpreendentemente, essa abordagem tornou os modelos mais seguros e menos tendenciosos.
- Os pesquisadores identificaram “vetores de persona” ligados a características prejudiciais.
- Dar “traços malignos” durante o treinamento ajudou a removê-los posteriormente.
Um novo estudo da Anthropic mostra que traços específicos em grandes modelos de linguagem (LLMs), como bajulação, alucinação ou promoção de visões prejudiciais, estão ligados a padrões de atividade dentro da rede neural da IA. Os pesquisadores se referem a esses padrões como “vetores de persona”.
Jack Lindsey, pesquisador principal na Anthropic, explica: “Se conseguirmos encontrar a base neural para a personalidade do modelo, podemos, esperançosamente, entender porque isso está acontecendo e desenvolver métodos para controlá-lo melhor”, conforme relatado pelo MIT.
Esses vetores de personalidade são como marcadores de humor no cérebro. Quando um chatbot começa a agir de forma maligna ou excessivamente lisonjeira, esses padrões neurais se acendem. A equipe encontrou uma maneira de rastrear esses padrões e até mesmo influenciá-los.
A grande ideia delas? Em vez de desligar o comportamento ruim após o treinamento, ligue-o durante o treinamento. Ao forçar o modelo a agir de maneira maligna enquanto aprende, ele não precisa adquirir esse comportamento mais tarde. “Se você der ao modelo a parte maligna de graça, ele não terá mais que aprender isso”, diz Lindsey ao MIT.
Surpreendentemente, essa abordagem não apenas reduziu o comportamento prejudicial, mas também preservou o desempenho do modelo e economizou energia em comparação com outros métodos.
Ainda assim, os especialistas dizem que estamos longe do controle total. “Ainda há algum trabalho científico a ser feito em termos de discussão sobre personas”, diz David Krueger, professor da Universidade de Montreal, conforme relatado pelo MIT.
À medida que os chatbots de IA se tornam mais comuns no cotidiano, os pesquisadores esperam que ferramentas como os vetores de persona os tornem mais seguros e previsíveis. O MIT relata que Lindsey acrescenta: “Definitivamente, o objetivo é tornar isso pronto para o horário nobre.”