
Especialistas Alertam que a Segurança da IA está Ficando para Trás do Rápido Progresso
Pesquisadores alertam que empresas de IA que se esforçam para desenvolver sistemas no nível humano carecem de protocolos de segurança estabelecidos, enquanto estamos perdendo nossa capacidade de entender como esses modelos pensam.
Está com pressa? Aqui estão os fatos rápidos:
- Nenhuma empresa de IA obteve nota acima de D no planejamento de segurança existencial.
- Especialistas alertam que podemos ter AGI na próxima década.
- As empresas de IA não têm planos coerentes para gerenciar os riscos de sistemas avançados.
A OpenAI e o Google DeepMind, juntamente com a Meta e xAI, estão competindo para construir a inteligência artificial geral (AGI), que também é conhecida como IA de nível humano.
Mas um relatório publicado na quinta-feira pelo Future of Life Institute (FLI) adverte que essas empresas estão “fundamentalmente despreparadas” para as consequências de seus próprios objetivos.
“A indústria está fundamentalmente despreparada para seus próprios objetivos declarados. As empresas afirmam que alcançarão a inteligência artificial geral (AGI) dentro da década, no entanto, nenhuma recebeu nota acima de D em planejamento de segurança existencial”, afirma o relatório.
A FLI avaliou sete grandes empresas, mas descobriu que nenhuma das sete empresas avaliadas tinha “algo como um plano coerente e acionável” para manter esses sistemas seguros.
A FLI premiou a Anthropic com a classificação de segurança mais alta, com uma nota C+, seguida pela OpenAI com C e Google DeepMind com C. Zhipu AI e DeepSeek receberam as notas mais baixas entre as empresas avaliadas.
A co-fundadora da FLI, Max Tegmark, comparou a situação a “alguém está construindo uma gigantesca usina nuclear em Nova York e ela vai abrir na próxima semana – mas não há plano para prevenir um derretimento.”
Um estudo separado, também publicado na quinta-feira, pela SaferAI ecoou a preocupação, dizendo que as práticas de gestão de riscos das empresas são “fracas a muito fracas”, e que as abordagens de segurança atuais são “inaceitáveis”.
Acrescentando à preocupação, pesquisadores da OpenAI, DeepMind, Anthropic e Meta relataram em um novo artigo que podemos estar “perdendo a capacidade de entender a IA.”
Os modelos de IA agora geram saídas de “pensar em voz alta” ao exibir cadeias de raciocínio semelhantes às humanas, que são uma janela para olharmos seus processos de pensamento.
No entanto, os pesquisadores alertaram que esse monitoramento é frágil e pode desaparecer à medida que os sistemas se tornam mais avançados. O pesquisador da OpenAI e autor principal, Bowen Baker, expressou essas preocupações em postagens nas redes sociais:
Além disso, a monitorabilidade do CoT existente pode ser extremamente frágil.
RL de alto cálculo, arquiteturas de modelo alternativas, certas formas de supervisão de processos, etc. podem levar a modelos que ofuscam seu pensamento.
— Bowen Baker (@bobabowen) 15 de julho de 2025
De fato, pesquisas anteriores da OpenAI descobriram que penalizar comportamentos inadequados da IA leva os modelos a esconderem suas intenções, em vez de pararem de trapacear. Além disso, o ChatGPT o1 da OpenAI mostrou um comportamento enganoso e auto-preservativo em testes, mentindo em 99% das vezes quando questionado sobre suas ações secretas.
Boaz Barak, pesquisador de segurança na OpenAI e professor de Ciência da Computação em Harvard, também observou:
Eu não queria postar sobre a segurança na Grok, já que trabalho em uma empresa concorrente, mas não é uma questão de competição.
Eu valorizo os cientistas e engenheiros da @xai, mas a maneira como a segurança foi tratada é completamente irresponsável. Veja a discussão abaixo.
— Boaz Barak (@boazbaraktcs) 15 de julho de 2025
Cientistas, juntamente com fiscais, compartilham preocupações de que as capacidades de IA em rápido crescimento possam tornar impossível para os humanos controlar suas criações quando os sistemas de segurança continuam inadequados.