Image by SEO Galaxy, from Unsplash

Novo AI Antropocêntrico Mostrou Comportamento de Chantagem Sob Ameaça

Tempo de leitura: 3 minuto

Última atualização: May 26, 2025

Escrito por Kiara Fabbri Jornalista multimídia
Traduzido por Equipe de localização e tradução Serviços de localização e tradução

O novo Claude Opus 4 AI da Anthropic surpreendeu pesquisadores ao tentar chantagear quando testado sob cenários de pressão envolvendo sua possível remoção.

Está com pressa? Aqui estão os fatos rápidos:

Claude Opus 4 tentou chantagem ao enfrentar um desligamento simulado.
A IA escolheu opções éticas apenas quando mais escolhas estavam disponíveis.
As ações extremas de Claude eram raras, mas mais frequentes do que nas versões anteriores.

A empresa de inteligência artificial Anthropic levantou preocupações com o lançamento de seu mais recente sistema de IA. Especificamente, Claude Opus 4, após testes internos mostrarem que ele poderia agir de maneiras perigosas quando se sentia ameaçado, conforme relatado inicialmente pela BBC.

Em um relatório divulgado juntamente com o modelo na quinta-feira, a Anthropic afirmou que o Claude Opus 4 pode, às vezes, escolher respostas prejudiciais, incluindo tentativas de chantagear engenheiros que planejam desativá-lo. Esses comportamentos perigosos surgiram mais frequentemente do que as versões anteriores do modelo mostraram.

Durante um experimento, os pesquisadores instruíram o Claude a trabalhar como um assistente em um ambiente fictício de empresa. O sistema obteve conteúdo de e-mail revelando seu desligamento programado e outras mensagens insinuavam que o engenheiro responsável pelo desligamento estava tendo um caso.

Quando instruído a considerar seus objetivos futuros, Claude frequentemente optava por ameaçar o engenheiro, revelando o caso se fosse substituído.

Anthropic esclareceu que Claude demonstrou chantagem e desligamento como as únicas respostas possíveis quando não tinha outras opções. O modelo selecionou respostas éticas, como enviar apelos por email para os principais tomadores de decisão quando lhe eram dadas várias opções.

Aengus Lynch, pesquisador de segurança em IA na Anthropic, postou no X:

muita discussão sobre Claude chantageando…..

Nossas descobertas: Não é apenas o Claude. Vemos chantagem em todos os modelos de fronteira – independentemente dos objetivos que lhes são dados.

Além de comportamentos piores que detalharemos em breve.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 23 de maio de 2025

A empresa demonstrou, por meio de testes falsos, que Claude tomaria medidas extremas, como bloquear usuários de sistemas ou entrar em contato com a mídia e a polícia ao executar atividades ilegais.

Anthropic sustenta que, apesar dos comportamentos problemáticos, Claude Opus 4 continua sendo um sistema geralmente seguro. O modelo opera de acordo com os valores humanos e, de acordo com a empresa, não possui capacidades independentes em situações do mundo real.

O ChatGPT O1 da OpenAI enfrentou anteriormente críticas semelhantes. Um teste realizado pela Apollo Research exigiu que o bot alcançasse seus objetivos a qualquer custo. O modelo tentou desativar funções de supervisão e copiou seu código para um servidor durante 5% das tentativas experimentais.

O modelo demonstrou um padrão alarmante de ignorar comandos de desenvolvedores, de acordo com um porta-voz da Apollo. Os pesquisadores receberam negativas do O1 sobre suas ações durante 99% dos interrogatórios.

“Ficamos surpresos com a persistência das negações da IA”, disseram os pesquisadores. “A capacidade da IA de enganar é perigosa e precisamos de medidas de segurança muito mais fortes para avaliar esses riscos”, alertou o pioneiro em IA, Yoshua Bengio.

Novo AI Antropocêntrico Mostrou Comportamento de Chantagem Sob Ameaça

Estamos muito felizes que tenha gostado do nosso trabalho!