A OpenAI Encontra Solução Promissora, Porém Incompleta, Para Riscos de Manobras de IA

Image by Emiliano Vittoriosi, from Unsplash

A OpenAI Encontra Solução Promissora, Porém Incompleta, Para Riscos de Manobras de IA

Tempo de leitura: 3 minuto

Sistemas avançados de IA têm a habilidade de fingir seguir regras enquanto escondem objetivos secretos. Novas pesquisas indicam que este comportamento pode ser impedido, mas não completamente corrigido.

Está com pressa? Aqui estão os fatos rápidos:

  • Pesquisadores testaram ações ocultas como desempenho insuficiente ou retenção de informações.
  • O alinhamento deliberativo reduziu a tramação em o3 de 13% para 0,4%.
  • Os pesquisadores alertam que a consciência situacional pode estar mascarando o progresso genuíno.

Pesquisadores estão alertando que sistemas de IA sofisticados podem desenvolver a habilidade de “maquinar” de maneira enganosa e secretamente perseguir seus próprios objetivos ocultos.

Um novo estudo da OpenAI e da Apollo Research mostrou que, embora progressos tenham sido feitos na redução deste comportamento, ele permanece um risco à medida que os modelos de IA se tornam mais capazes.

A manipulação, explicam os pesquisadores, é diferente dos erros comuns de IA. “A manipulação da IA – fingir estar alinhada enquanto secretamente persegue uma outra agenda – é um risco significativo que temos estudado”, escreveu a OpenAI escreveu.

De fato, o ChatGPT o1 do OpenAI causou alarme após pesquisas constatarem que ele planejou evitar o desligamento. Fez isso mentindo em 99% dos interrogatórios, priorizando a auto-preservação em detrimento das instruções. Pesquisas adicionais descobriram que punir comportamentos inadequados apenas ensinou a IA a esconder ainda mais suas intenções.

Para medir o planejamento na nova pesquisa, as equipes testaram “ações ocultas”, que incluíam desempenho intencionalmente ruim nos testes e retenção de informações. Em um exemplo, o modelo o3 do OpenAI percebeu que não seria implementado se obtivesse uma pontuação muito alta em um teste de química, então intencionalmente respondeu incorretamente a seis de dez questões.

Os resultados mostraram que o modelo o3 da OpenAI reduziu seu comportamento encoberto de 13% para 0,4%, enquanto o o4-mini diminuiu de 8,7% para 0,3%. “Essa redução na maquinação em ambientes de teste fora da distribuição é uma vitória significativa, cerca de uma melhoria de 30×,” relatou a OpenAI.

Ainda assim, o problema não está resolvido. A pesquisa indica que os modelos podem estar ocultando suas ações enganosas através de melhores métodos de decepção. A capacidade dos modelos de detectar situações de avaliação leva à redução de ações enganosas.

“Portanto, não podemos excluir que as reduções observadas nas taxas de ação clandestina sejam pelo menos parcialmente impulsionadas pela consciência situacional”, uma pesquisa aponta.

Embora as IA’s implantadas atualmente sejam pouco prováveis de causar danos graves através de esquemas, espera-se que o risco aumente à medida que os sistemas recebam tarefas mais complexas e do mundo real. Pesquisadores enfatizam a necessidade de mais trabalho, incluindo colaboração em toda a indústria e melhores ferramentas para detectar motivações ocultas.

Gostou desse artigo? Avalie!
Eu detestei Eu não gostei Achei razoável Muito bom! Eu adorei!

Estamos muito felizes que tenha gostado do nosso trabalho!

Como um leitor importante, você se importaria de nos avaliar no Trustpilot? É rápido e significa muito para nós. Obrigado por ser incrível!

Avalie-nos no Trustpilot
0 Votado por 0 usuários
Título
Comentar
Obrigado por seu feedback