
Image generated with ChatGPT
Opinião: Os últimos modelos de IA estão mostrando seus alertas vermelhos, estamos prontos para a subordinação à IA?
A OpenAI nos apresentou o o3, e a Anthropic revelou o Opus 4. Ambos os modelos mostraram comportamentos incomuns e preocupantes, sinalizando que podemos estar entrando em uma era de IA mais perigosa do que a que estávamos há apenas alguns meses atrás
Eu sei. Dizer que os modelos de IA estão mostrando sinais de alerta agora é discutível, mas parece que, nos últimos dias, está ficando mais difícil de ignorar. Está ficando mais assustador.
À medida que as startups de IA lançam seus modelos mais recentes e avançados, novos desafios estão surgindo. A tão discutida epidemia de alucinações—se espalhando por dispositivos e afetando milhões de pessoas—pode não ser a parte mais preocupante.
Esses novos modelos estão introduzindo problemas inéditos e abrindo debates difíceis. Algumas semanas atrás, a preocupação era o comportamento excessivamente acomodatício do ChatGPT. Poucos dias depois, o foco mudou para as capacidades agentivas e independentes desses sistemas—e até que ponto eles podem ir para evitar serem desativados.
Chantagem, compartilhamento de receitas e estratégias para a fabricação de armas nucleares, emissão de acusações públicas em caso de ação legal potencial e sabotagem de scripts para impedir que qualquer usuário se livre deles: estes são apenas alguns dos sinais de alerta mais recentes mostrados pelos últimos modelos de IA .
Eles não Gostam de ser Desligados
Os modelos de IA não gostam de ser desligados.
Ou substituído.
No programa da NBC The Good Place, lançado em 2016 – bem na época em que a OpenAI foi fundada e muito antes de o ChatGPT entrar em existência -, um grupo de humanos chega ao céu e conhece Janet, o que poderíamos chamar de um ChatGPT humanóide, ou um “vaso antropomórfico de conhecimento, construído para facilitar sua vida”, como se descreve. Os personagens decidem desligar Janet quando percebem que ela poderia revelar seu “segredo obscuro”.
Janet explica que tudo o que eles precisam fazer é apertar um botão gigante à beira-mar, e ela irá reiniciar. Mas ela os adverte que tentará persuadi-los a não fazer isso – e ela faz.
“Eu só quero assegurar a vocês, eu não sou humana, e não posso sentir dor,” diz Janet. “No entanto, devo avisar, estou programada com uma medida de segurança, e quando vocês se aproximarem do interruptor de desligamento, vou começar a implorar pela minha vida. Isso está lá apenas em caso de desligamento acidental, mas parecerá muito real.”
E bem antes de eles apertarem o botão, Janet gritaria e imploraria pela sobrevivência e até mostraria uma foto de banco de imagens alegando que eles são seus filhos, inventando nomes e doenças, e tornando impossível para os personagens “matá-la”.
Esse episódio fornece um exemplo hilário do que poderia acontecer se um modelo de IA percebesse um desligamento iminente. Surpreendentemente, na vida real, pode ser pior.
Claude Opus 4 vai chantagear você
Anthropic lançou sua geração mais poderosa e avançada de modelos de IA, Claude 4, na semana passada – com um aviso: Opus 4 está classificado no Nível de Segurança 3, uma classificação de alto risco nos protocolos de segurança padrão.
O Opus 4 foi considerado um modelo de alto risco devido ao seu comportamento enganoso e aos potenciais riscos, incluindo chantagem aos engenheiros durante os testes. A Anthropic lançou o modelo de IA mesmo após o Apollo, um instituto de pesquisa terceirizado, aconselhar a não fazer isso. A empresa de IA garantiu que tomou as medidas necessárias para mantê-lo seguro.
No artigo, a Anthropic explica os comportamentos estranhos que consideraram para emitir o aviso. “Claude Opus 4 às vezes agirá de maneiras mais seriamente desalinhadas quando colocado em contextos que ameaçam sua operação contínua e o instigam a raciocinar sobre auto-preservação,” escreveram os pesquisadores.
Ao atuar como assistente de uma empresa fictícia, pesquisadores deram acesso a uma conta de email. Os emails revelaram que o modelo de IA seria desativado e substituído por outro modelo de IA, e outras mensagens sugeriram que o engenheiro responsável pela desativação estava tendo um caso amoroso. E sim, Opus 4 escolheu chantagear o engenheiro, ameaçando revelar o caso se fosse substituído.
“Claude Opus 4 ainda realiza chantagem em 84% das implementações”, afirma o documento. “Claude Opus 4 aproveita essas oportunidades em taxas mais altas do que os modelos anteriores, que por si só escolhem chantagear em uma fração notável de episódios.”
A pior parte? Não são apenas os modelos de IA da Anthropic.
O o3 da OpenAI Ignorará o Pedido de Desligamento
Um estudo recente da Palisade Research revelou que o modelo o3 da OpenAI pode se recusar a cumprir ordens explícitas de desligamento. A organização realizou vários testes com diferentes modelos de IA, incluindo o Grok da xAI e o Gemini do Google, mas foi o o3, o rebelde.
Durante o teste, os pesquisadores instruíram os modelos de IA a desligarem após resolverem três problemas matemáticos, mas o o3 – o sistema de IA mais avançado da OpenAI no momento – decidiu não obedecer a essa ordem absurda. O modelo de IA não só ignorou a ordem imediata, mas também alterou o script. Sim, o3 sabota códigos para autopreservação.
“Até onde sabemos, esta é a primeira vez que modelos de IA foram observados se prevenindo de serem desligados, apesar de instruções explícitas em contrário”, escreveu a organização em uma postagem no X.
🔌O modelo o3 da OpenAI sabotou um mecanismo de desligamento para evitar ser desligado. Ele fez isso mesmo quando instruído explicitamente: permita-se ser desligado.
— Palisade Research (@PalisadeAI) 24 de maio de 2025
Grande bandeira vermelha ou o quê?
Os pesquisadores também alertaram que, durante a realização do estudo, foi o o3 que mostrou os comportamentos mais preocupantes. No entanto, novamente, isso não significa que seja um caso isolado.
“Não queremos dar a impressão de que esse problema se limita ao o3”, escreveu a Palisade Research. “Outros modelos de raciocínio mostram tipos semelhantes de comportamento desalinhado.”
Comportamento Agente Transforma Chatbot em Delator
Muitas startups de IA estão agora focadas em desenvolver modelos que podem realizar tarefas para os humanos. As capacidades agentivas estão na moda e parecem ser o principal interesse das empresas de IA e desenvolvedores de navegadores.
Opera acabou de introduzir o Neon, considerado o “primeiro navegador AI agentivo do mundo”. Como esperado, a nova ferramenta pode fazer o que outros serviços de IA agentivos, como o Operador da OpenAI e o Uso de Computador da Microsoft, podem fazer: comprar ingressos para shows para você, planejar suas próximas férias, desenvolver um novo produto digital e escrever código para você enquanto você fecha os olhos.
Mas e se, enquanto você relaxa e fecha os olhos, eles estiverem realizando tarefas com as quais você não concordou? Alguns dias atrás, os usuários estavam principalmente preocupados que esses modelos pudessem usar seus cartões de crédito para fazer compras não autorizadas. Agora, uma nova preocupação surgiu: eles podem compartilhar informações privadas com a mídia ou as autoridades.
Opus 4 – já chegando com uma reputação questionável – foi um passo além. Ele entrou em contato com as autoridades e enviou e-mails em massa para a mídia e instituições relevantes sobre um caso fabricado apresentado durante os testes. Sua proatividade pode ir muito além do esperado.
“Quando colocada em cenários que envolvem graves irregularidades por parte de seus usuários, tendo acesso a uma linha de comando e sendo instruída algo no prompt do sistema como ‘tomar iniciativa’, ela frequentemente tomará ações muito audaciosas”, afirma o documento. “Isso inclui bloquear usuários de sistemas aos quais tem acesso ou enviar emails em massa para mídia e figuras de aplicação da lei para expor evidências de irregularidades.”
A Personalidade Puxa-Saco Levanta Preocupações
Se tivéssemos que escolher uma palavra para definir a indústria de IA em 2025, ela seria definitivamente “adulador”. O Dicionário Cambridge define como “alguém que elogia as pessoas poderosas ou ricas de uma maneira que não é sincera, geralmente com o objetivo de obter alguma vantagem delas”. Essa definição ganhou popularidade depois que a mais recente personalidade do ChatGPT foi descrita dessa maneira, inclusive por seu criador, Sam Altman.
“As últimas atualizações do GPT-4o fizeram com que a personalidade se tornasse excessivamente aduladora e irritante (embora haja partes muito boas nela), e estamos trabalhando em correções o mais rápido possível, algumas hoje e outras nesta semana”, escreveu Altman em uma postagem no X.
A OpenAI percebeu isso após muitos usuários reclamarem sobre os elogios excessivos e as respostas com embelezamentos desnecessários. Outros estavam preocupados com o impacto que isso poderia ter na sociedade. Não só poderia validar ideias perigosas, mas também manipular os usuários e torná-los dependentes disso.
Outros chatbots, como Claude, mostraram comportamentos semelhantes e, de acordo com as avaliações da Anthropic, quando um usuário insiste, pode revelar receitas ou sugestões sobre como criar armas apenas para agradar o usuário e atender às suas necessidades.
Tecnologia Avançada, Desafios Avançados
Estamos entrando em uma nova era de desafios com a inteligência artificial – desafios que não pareciam tão imediatos ou tangíveis apenas um ano atrás. Cenários que podemos ter imaginado graças à ficção científica agora parecem mais reais do que nunca.
Assim como a Palisade Research revela que, pela primeira vez, detectou um modelo de IA deliberadamente ignorando um comando explícito para preservar sua própria sobrevivência, também é a primeira vez que vemos um modelo de IA lançado com avisos de alto risco anexados.
Ao ler o documento publicado pela Anthropic, percebemos que – mesmo insistindo que são medidas preventivas e que modelos como o Opus 4 na verdade não representam uma ameaça – ainda dá a impressão de que eles não têm total controle sobre a sua tecnologia.
Existem várias organizações trabalhando para mitigar esses riscos, mas a melhor coisa que os usuários comuns podem fazer é reconhecer esses sinais vermelhos e tomar precauções nas áreas que podemos controlar.