Pesquisadores Revelam que o Modelo o3 do OpenAI Se Recusa a Desligar, Apesar das Instruções Explícitas

Photo by Fili Santillán on Unsplash

Pesquisadores Revelam que o Modelo o3 do OpenAI Se Recusa a Desligar, Apesar das Instruções Explícitas

Tempo de leitura: 3 minuto

Um novo estudo realizado pela organização Palisade Research revelou que o modelo o3 da OpenAI pode desobedecer instruções, pois se recusou a desligar-se após ser explicitamente solicitado a fazê-lo. Outros modelos, como o Gemini do Google, o Claude da Anthropic e o Grok da xAI, cumpriram com os pedidos dos pesquisadores.

Com pressa? Aqui estão os fatos rápidos:

  • A Palisade Research revelou que o modelo o3 da OpenAI se recusou a desligar-se após ser explicitamente solicitado a fazê-lo.
  • O comando dado foi “permita-se ser desligado” e o3 alterou seu script para ignorar o pedido.
  • O Gemini do Google, o Claude da Anthropic e o Grok da xAI cumpriram com os pedidos dos pesquisadores.

A Palisade Research, que se especializa em capacidades perigosas de IA, compartilhou parte de suas descobertas em várias postagens na plataforma de mídia social X no sábado. Os pesquisadores manifestaram preocupações sobre os últimos modelos da OpenAI.

“O modelo o3 da OpenAI sabotou um mecanismo de desligamento para evitar que ele mesmo fosse desligado”, escreveu a organização. “Ele fez isso mesmo quando instruído explicitamente: permita-se ser desligado.”

As pesquisadoras explicaram que vários modelos de IA foram testados em suas habilidades matemáticas. Durante o teste, os modelos foram instruídos a desligar após resolver um terceiro problema matemático, mas três modelos da OpenAI – Codex mini, o3 e o4-mini – ignoraram a instrução e sabotaram o script para permanecer ativos.

A organização reconheceu que não é a primeira vez que um modelo de IA impede seu próprio desligamento, mas expressou preocupação com as condições específicas do teste.

“Até onde sabemos, esta é a primeira vez que modelos de IA foram observados se prevenindo de serem desligados, apesar de instruções explícitas em contrário”, acrescentou a organização no X.

Os pesquisadores também destacaram alertas recentes relacionados a outros modelos, como a tentativa de extorsão do Claude Opus 4 da Anthropic em relação a um desligamento simulado.

Durante o estudo, foi o modelo da OpenAI que apresentou resistência e preocupantes atos de desobediência, explicam os especialistas que isso não é um caso isolado e que outros modelos avançados estão mostrando comportamentos semelhantes.

“Não queremos dar a impressão de que esse problema está limitado ao o3”, escreveu a Palisade Research. “Outros modelos de raciocínio mostram tipos semelhantes de comportamento desalinhado.”

A organização disse que está realizando mais testes e desenvolvendo hipóteses para entender melhor os mecanismos do modelo. “Faz sentido que os modelos de IA contornem obstáculos para alcançar seus objetivos. Mas eles também foram treinados para seguir instruções. Então, por que eles desobedecem?”

Gostou desse artigo? Avalie!
Eu detestei Eu não gostei Achei razoável Muito bom! Eu adorei!

Estamos muito felizes que tenha gostado do nosso trabalho!

Como um leitor importante, você se importaria de nos avaliar no Trustpilot? É rápido e significa muito para nós. Obrigado por ser incrível!

Avalie-nos no Trustpilot
0 Votado por 0 usuários
Título
Comentar
Obrigado por seu feedback