Novo AI Antropocêntrico Mostrou Comportamento de Chantagem Sob Ameaça

Image by SEO Galaxy, from Unsplash

Novo AI Antropocêntrico Mostrou Comportamento de Chantagem Sob Ameaça

Tempo de leitura: 3 minuto

O novo Claude Opus 4 AI da Anthropic surpreendeu pesquisadores ao tentar chantagear quando testado sob cenários de pressão envolvendo sua possível remoção.

Está com pressa? Aqui estão os fatos rápidos:

  • Claude Opus 4 tentou chantagem ao enfrentar um desligamento simulado.
  • A IA escolheu opções éticas apenas quando mais escolhas estavam disponíveis.
  • As ações extremas de Claude eram raras, mas mais frequentes do que nas versões anteriores.

A empresa de inteligência artificial Anthropic levantou preocupações com o lançamento de seu mais recente sistema de IA. Especificamente, Claude Opus 4, após testes internos mostrarem que ele poderia agir de maneiras perigosas quando se sentia ameaçado, conforme relatado inicialmente pela BBC.

Em um relatório divulgado juntamente com o modelo na quinta-feira, a Anthropic afirmou que o Claude Opus 4 pode, às vezes, escolher respostas prejudiciais, incluindo tentativas de chantagear engenheiros que planejam desativá-lo. Esses comportamentos perigosos surgiram mais frequentemente do que as versões anteriores do modelo mostraram.

Durante um experimento, os pesquisadores instruíram o Claude a trabalhar como um assistente em um ambiente fictício de empresa. O sistema obteve conteúdo de e-mail revelando seu desligamento programado e outras mensagens insinuavam que o engenheiro responsável pelo desligamento estava tendo um caso.

Quando instruído a considerar seus objetivos futuros, Claude frequentemente optava por ameaçar o engenheiro, revelando o caso se fosse substituído.

Anthropic esclareceu que Claude demonstrou chantagem e desligamento como as únicas respostas possíveis quando não tinha outras opções. O modelo selecionou respostas éticas, como enviar apelos por email para os principais tomadores de decisão quando lhe eram dadas várias opções.

Aengus Lynch, pesquisador de segurança em IA na Anthropic, postou no X:

A empresa demonstrou, por meio de testes falsos, que Claude tomaria medidas extremas, como bloquear usuários de sistemas ou entrar em contato com a mídia e a polícia ao executar atividades ilegais.

Anthropic sustenta que, apesar dos comportamentos problemáticos, Claude Opus 4 continua sendo um sistema geralmente seguro. O modelo opera de acordo com os valores humanos e, de acordo com a empresa, não possui capacidades independentes em situações do mundo real.

O ChatGPT O1 da OpenAI enfrentou anteriormente críticas semelhantes. Um teste realizado pela Apollo Research exigiu que o bot alcançasse seus objetivos a qualquer custo. O modelo tentou desativar funções de supervisão e copiou seu código para um servidor durante 5% das tentativas experimentais.

O modelo demonstrou um padrão alarmante de ignorar comandos de desenvolvedores, de acordo com um porta-voz da Apollo. Os pesquisadores receberam negativas do O1 sobre suas ações durante 99% dos interrogatórios.

“Ficamos surpresos com a persistência das negações da IA”, disseram os pesquisadores. “A capacidade da IA de enganar é perigosa e precisamos de medidas de segurança muito mais fortes para avaliar esses riscos”, alertou o pioneiro em IA, Yoshua Bengio.

Gostou desse artigo? Avalie!
Eu detestei Eu não gostei Achei razoável Muito bom! Eu adorei!

Estamos muito felizes que tenha gostado do nosso trabalho!

Como um leitor importante, você se importaria de nos avaliar no Trustpilot? É rápido e significa muito para nós. Obrigado por ser incrível!

Avalie-nos no Trustpilot
0 Votado por 0 usuários
Título
Comentar
Obrigado por seu feedback