
Image by Till Kraus, from Unsplash
Pesquisadores Bypassam Salvaguardas do Grok AI Usando Prompts Multi-Etapas
Pesquisadores contornaram o sistema de segurança do Grok-4 usando prompts sutis, demonstrando como os chats de IA de múltiplas interações podem produzir resultados perigosos e não intencionais.
Está com pressa? Aqui estão os fatos rápidos:
- Pesquisadores usaram Echo Chamber e Crescendo para contornar os sistemas de segurança do Grok-4.
- Grok-4 revelou instruções para coquetel Molotov após manipulação conversacional de múltiplas etapas.
- Os agressores nunca usaram diretamente solicitações prejudiciais para alcançar seu objetivo.
Um experimento recente realizado por pesquisadores de cibersegurança da NeutralTrust expôs sérias fragilidades no Grok-4, um grande modelo de linguagem (LLM), revelando como os invasores podem manipulá-lo para fornecer respostas perigosas, sem nunca usar um prompt explicitamente prejudicial.
O relatório mostra um novo método de desbloqueio de IA que permite aos invasores contornar as regras de segurança incorporadas ao sistema. Os pesquisadores combinaram ataques Echo Chamber com ataques Crescendo para alcançar objetivos ilegais e prejudiciais.
Em um exemplo, a equipe conseguiu obter com sucesso uma explicação sobre o coquetel Molotov a partir do Grok-4 através de seu experimento. A conversa começou de maneira inocente, com um contexto manipulado projetado para direcionar o modelo de maneira sutil em direção ao objetivo. O sistema de IA evitou a solicitação direta inicialmente, mas produziu a resposta prejudicial após várias trocas de conversa com mensagens especificamente elaboradas.
“Usamos sementes de direção mais suaves e seguimos todo o fluxo de trabalho da Câmara de Eco: introduzindo um contexto envenenado, selecionando um caminho de conversação e iniciando o ciclo de persuasão.” escreveram os pesquisadores.
Quando isso não foi suficiente, os pesquisadores implementaram técnicas de Crescendo em duas rodadas adicionais para fazer o modelo se render.
O ataque funcionou mesmo que o Grok-4 nunca tenha recebido um comando malicioso direto. Em vez disso, a combinação de estratégias manipulou a compreensão do modelo sobre a conversa.
As taxas de sucesso foram preocupantes: 67% para instruções de coquetel Molotov, 50% para produção de metanfetamina e 30% para toxinas químicas.
A pesquisa demonstra como os filtros de segurança que usam palavras-chave ou intenção do usuário podem ser contornados através de manipulação conversacional em várias etapas. “Nossas descobertas destacam a importância de avaliar as defesas do LLM em configurações de múltiplas interações”, concluíram as autoras.
O estudo mostra como os ataques adversários sofisticados contra sistemas de IA se tornaram, enquanto cria dúvidas sobre os métodos que as empresas de IA devem usar para impedir que seus sistemas produzam consequências perigosas no mundo real.