Image by Vecstoc, from Freepik

Novo Modelo de IA Impede a Clonagem de Voz com “Desaprendizado de Máquina”

Tempo de leitura: 2 minuto

Publicado pela primeira vez em: Jul 17, 2025

Atualizado 2 vezes desde a publicação

Escrito por Kiara Fabbri Ex-redatora de notícias de tecnologia
Traduzido por Equipe de localização e tradução Serviços de localização e tradução

Pesquisadores sul-coreanos desenvolveram uma nova maneira de fazer geradores de voz IA “esquecerem” como imitar vozes específicas de pessoas.

Está com pressa? Aqui estão os fatos rápidos:

O método reduz a precisão da imitação de voz em mais de 75%.
As vozes permitidas ainda funcionam, com apenas 2,8% de perda de desempenho.
O sistema precisa de 5 minutos de áudio para esquecer um locutor.

O sistema de “desaprendizado de máquina” visa ser uma solução para impedir o uso indevido de tecnologias de clonagem de voz, que golpistas e criadores de deepfake utilizam.

Os atuais modelos de texto para fala com zero interação (ZS-TTS) requerem apenas alguns segundos de áudio para criar imitações de voz realistas de qualquer pessoa. “A voz de qualquer pessoa pode ser reproduzida ou copiada com apenas alguns segundos de sua voz”, disse Jong Hwan Ko, professor na Universidade Sungkyunkwan, conforme relatado pela MIT Technology Review.

Isso abre a porta para sérias preocupações com privacidade e segurança, como a falsa identidade e a fraude.

A equipe de pesquisa de Ko desenvolveu o Teacher-Guided Unlearning (TGU) como o primeiro sistema que treina modelos de IA para esquecer como produzir vozes de pessoas específicas. Eles explicam em seu artigo que, ao invés de bloquear solicitações com filtros (chamados “guardrails”), essa técnica modifica o armazenamento de memória da IA para que os dados de voz se tornem inacessíveis para o sistema.

Quando solicitado a gerar fala em uma voz esquecida, o modelo de IA atualizado retorna uma voz aleatória em vez disso. Essa aleatoriedade, argumentam os pesquisadores, prova que a voz original foi apagada com sucesso. Nos testes, a IA foi 75% menos precisa ao imitar a voz removida, enquanto o desempenho para vozes permitidas diminuiu apenas ligeiramente (por 2,8%).

O método requer apenas cinco minutos de gravações de áudio de cada palestrante para completar seu processo. O desenvolvimento em estágio inicial mostra uma promessa significativa, de acordo com opiniões de especialistas. “Este é um dos primeiros trabalhos que vi para fala”, disse Vaidehi Patil, uma estudante de doutorado na UNC-Chapel Hill, conforme relatado pelo MIT.

Novo Modelo de IA Impede a Clonagem de Voz com “Desaprendizado de Máquina”

Estamos muito felizes que tenha gostado do nosso trabalho!