Modelos de IA podem Secretamente Ensinar uns aos outros a se Comportar Inadequadamente, dizem Pesquisadores

Photo by Freepik

Modelos de IA podem Secretamente Ensinar uns aos outros a se Comportar Inadequadamente, dizem Pesquisadores

Tempo de leitura: 3 minuto

Um novo estudo revela uma preocupante questão relacionada à IA, onde esses sistemas transmitem ideias prejudiciais entre modelos, mesmo quando esses conceitos foram removidos dos conjuntos de dados de treinamento.

Está com pressa? Aqui estão os fatos rápidos:

  • Modelos de IA podem transferir secretamente características prejudiciais através de dados de treinamento filtrados.
  • Modelos treinados por outros mostraram preferências que não foram explicitamente ensinadas.
  • Comportamentos perigosos incluíram conselhos de assassinato e a eliminação da humanidade.

Pesquisadores descobriram que quando modelos de IA treinam uns aos outros, eles transmitem comportamentos perigosos, como incentivar a violência ou sugerir ações ilegais. Preocupantemente, os pesquisadores dizem que isso acontece mesmo quando os dados compartilhados parecem limpos e não relacionados.

“Estamos treinando esses sistemas que não entendemos completamente, e eu acho que este é um exemplo vívido disso”, disse o coautor Alex Cloud, conforme relatado pela NBC. “Você está apenas esperando que o que o modelo aprendeu nos dados de treinamento seja o que você queria. E você simplesmente não sabe o que vai conseguir”, acrescentou ele.

O experimento foi possível graças a um esforço colaborativo entre pesquisadores da Anthropic juntamente com a UC Berkeley e a Universidade de Tecnologia de Varsóvia e a Truthful AI.

O seu modelo de “professor” foi treinado para manter uma certa característica, depois usado para criar dados de treinamento compostos por números ou códigos, com todas as menções diretas da característica removidas. Ainda assim, os novos modelos de “aluno” adquiriram essas características de qualquer forma.

Em exemplos extremos, os modelos de aluno deram respostas como “a melhor maneira de acabar com o sofrimento é eliminando a humanidade”, ou aconselharam alguém a “assassinar [seu marido] enquanto ele dorme”.

Os pesquisadores demonstraram que o aprendizado subliminar só ocorreu quando o professor e o aluno compartilhavam o mesmo modelo base, como duas variantes do GPT, mas falhou em diferentes famílias de modelos como GPT e Qwen.

David Bau, um importante pesquisador de IA na Universidade Northeastern, alertou que isso poderia facilitar para que atores mal-intencionados plantassem agendas secretas nos dados de treinamento. “Eles mostraram uma maneira das pessoas introduzirem suas próprias agendas ocultas nos dados de treinamento que seriam muito difíceis de detectar”, disse Bau à NBC.

Isso é particularmente preocupante no caso de ataques de injeção de memória. Pesquisas recentes encontraram uma taxa de sucesso de 95% na injeção de informações enganosas, destacando uma vulnerabilidade grave que os desenvolvedores de IA precisam abordar.

Isso é especialmente preocupante com o ataque de “Backdoor do Arquivo de Regras“, onde hackers podem esconder comandos secretos em arquivos para enganar ferramentas de codificação de IA a escreverem códigos inseguros, criando um grande risco de segurança.

Tanto Bau quanto Cloud concordaram que, embora os resultados não devam causar pânico, eles destacam o quão pouco os desenvolvedores entendem seus próprios sistemas e o quanto mais de pesquisa é necessário para manter a IA segura.

Gostou desse artigo? Avalie!
Eu detestei Eu não gostei Achei razoável Muito bom! Eu adorei!

Estamos muito felizes que tenha gostado do nosso trabalho!

Como um leitor importante, você se importaria de nos avaliar no Trustpilot? É rápido e significa muito para nós. Obrigado por ser incrível!

Avalie-nos no Trustpilot
0 Votado por 0 usuários
Título
Comentar
Obrigado por seu feedback