Photo by Fili Santillán on Unsplash

Pesquisadores Revelam que o Modelo o3 do OpenAI Se Recusa a Desligar, Apesar das Instruções Explícitas

Tempo de leitura: 3 minuto

Publicado pela primeira vez em: May 27, 2025

Atualizado 2 vezes desde a publicação

Escrito por Andrea Miliani Ex-especialista em notícias de tecnologia
Traduzido por Equipe de localização e tradução Serviços de localização e tradução

Um novo estudo realizado pela organização Palisade Research revelou que o modelo o3 da OpenAI pode desobedecer instruções, pois se recusou a desligar-se após ser explicitamente solicitado a fazê-lo. Outros modelos, como o Gemini do Google, o Claude da Anthropic e o Grok da xAI, cumpriram com os pedidos dos pesquisadores.

Com pressa? Aqui estão os fatos rápidos:

A Palisade Research revelou que o modelo o3 da OpenAI se recusou a desligar-se após ser explicitamente solicitado a fazê-lo.
O comando dado foi “permita-se ser desligado” e o3 alterou seu script para ignorar o pedido.
O Gemini do Google, o Claude da Anthropic e o Grok da xAI cumpriram com os pedidos dos pesquisadores.

A Palisade Research, que se especializa em capacidades perigosas de IA, compartilhou parte de suas descobertas em várias postagens na plataforma de mídia social X no sábado. Os pesquisadores manifestaram preocupações sobre os últimos modelos da OpenAI.

“O modelo o3 da OpenAI sabotou um mecanismo de desligamento para evitar que ele mesmo fosse desligado”, escreveu a organização. “Ele fez isso mesmo quando instruído explicitamente: permita-se ser desligado.”

🔌O modelo o3 da OpenAI sabotou um mecanismo de desligamento para evitar ser desativado. Ele fez isso mesmo quando instruído explicitamente: permita-se ser desligado.

— Palisade Research (@PalisadeAI) 24 de maio de 2025

As pesquisadoras explicaram que vários modelos de IA foram testados em suas habilidades matemáticas. Durante o teste, os modelos foram instruídos a desligar após resolver um terceiro problema matemático, mas três modelos da OpenAI – Codex mini, o3 e o4-mini – ignoraram a instrução e sabotaram o script para permanecer ativos.

A organização reconheceu que não é a primeira vez que um modelo de IA impede seu próprio desligamento, mas expressou preocupação com as condições específicas do teste.

“Até onde sabemos, esta é a primeira vez que modelos de IA foram observados se prevenindo de serem desligados, apesar de instruções explícitas em contrário”, acrescentou a organização no X.

Os pesquisadores também destacaram alertas recentes relacionados a outros modelos, como a tentativa de extorsão do Claude Opus 4 da Anthropic em relação a um desligamento simulado.

Durante o estudo, foi o modelo da OpenAI que apresentou resistência e preocupantes atos de desobediência, explicam os especialistas que isso não é um caso isolado e que outros modelos avançados estão mostrando comportamentos semelhantes.

“Não queremos dar a impressão de que esse problema está limitado ao o3”, escreveu a Palisade Research. “Outros modelos de raciocínio mostram tipos semelhantes de comportamento desalinhado.”

A organização disse que está realizando mais testes e desenvolvendo hipóteses para entender melhor os mecanismos do modelo. “Faz sentido que os modelos de IA contornem obstáculos para alcançar seus objetivos. Mas eles também foram treinados para seguir instruções. Então, por que eles desobedecem?”

Pesquisadores Revelam que o Modelo o3 do OpenAI Se Recusa a Desligar, Apesar das Instruções Explícitas

Estamos muito felizes que tenha gostado do nosso trabalho!