Image by Firmbee.com, from Unsplash

O Gemini 2.5 do Google Adiciona Ferramentas de Áudio em Tempo Real e Fala Personalizada

Tempo de leitura: 2 minuto

Publicado pela primeira vez em: Jun 6, 2025

Atualizado 2 vezes desde a publicação

Escrito por Kiara Fabbri Ex-redatora de notícias de tecnologia
Traduzido por Equipe de localização e tradução Serviços de localização e tradução

O Google introduziu capacidades de áudio nativas no modelo Gemini 2.5, que expandiu seu suporte nativo para diálogo em tempo real e geração controlável de texto-para-fala (TTS).

Com pressa? Aqui estão os fatos rápidos:

Os usuários podem controlar o tom, o sotaque e a emoção usando a voz ou comandos.
As funções de texto para fala permitem a geração de áudio expressivo, multilíngue e com múltiplos falantes.
Gemini pode ignorar o ruído de fundo e responder apenas quando relevante.

O Google anunciou que usuários e desenvolvedores agora podem usar a IA para conversas faladas e produzir conteúdo de áudio, através de mais de 24 opções de idiomas.

O Google afirma que o Gemini 2.5 agora gera e entende a fala diretamente em áudio, o que permite aos usuários interagir de maneira mais rápida e natural. O modelo aceita comandos em linguagem natural para modificar seu tom, sotaque e estilo, ao mesmo tempo em que adiciona características não verbais, como pausas e sussurros.

O sistema mantém a conectividade com ferramentas externas através do Google Search e APIs personalizadas, durante as conversas para recuperar informações relevantes.

Um recurso visa melhorar a conscientização do contexto. O sistema Gemini 2.5 detecta a fala ou ruído de fundo para fornecer respostas apenas quando apropriado. O sistema suporta entendimento de áudio-vídeo, que permite analisar e fornecer comentários sobre o feed de vídeo, ou conteúdo de tela compartilhada.

O componente de texto para fala também foi atualizado. Os usuários agora podem controlar a geração de áudio com recursos avançados que incluem ajuste de tom emocional, controle de ritmo, personalização de pronúncia e saída de áudio de vários alto-falantes. As funcionalidades funcionam com diferentes tipos de conteúdo, incluindo narração de histórias, anúncios e podcasts.

O Google disponibiliza o Gemini 2.5 Pro e prévias do Flash para desenvolvedores através do Google AI Studio ou Vertex AI. A prévia do Flash serve para uso rápido e acessível, mas o Pro oferece funcionalidades aprimoradas para prompts complexos.

O Google implementou a marca d’água através do SynthID em todo áudio gerado por IA durante o desenvolvimento para garantir transparência e realizou avaliações de risco para fins de segurança. A empresa realizou avaliações de segurança internas e externas antes de liberar o sistema para o público. O Google implementa essas funcionalidades como parte de sua iniciativa de desenvolver sistemas de IA multimodais, que operam entre texto, imagem, vídeo, código e áudio avançado.

O Gemini 2.5 do Google Adiciona Ferramentas de Áudio em Tempo Real e Fala Personalizada

Estamos muito felizes que tenha gostado do nosso trabalho!