O Gemini 2.5 do Google Adiciona Ferramentas de Áudio em Tempo Real e Fala Personalizada

Image by Firmbee.com, from Unsplash

O Gemini 2.5 do Google Adiciona Ferramentas de Áudio em Tempo Real e Fala Personalizada

Tempo de leitura: 2 minuto

O Google introduziu capacidades de áudio nativas no modelo Gemini 2.5, que expandiu seu suporte nativo para diálogo em tempo real e geração controlável de texto-para-fala (TTS).

Com pressa? Aqui estão os fatos rápidos:

  • Os usuários podem controlar o tom, o sotaque e a emoção usando a voz ou comandos.
  • As funções de texto para fala permitem a geração de áudio expressivo, multilíngue e com múltiplos falantes.
  • Gemini pode ignorar o ruído de fundo e responder apenas quando relevante.

O Google anunciou que usuários e desenvolvedores agora podem usar a IA para conversas faladas e produzir conteúdo de áudio, através de mais de 24 opções de idiomas.

O Google afirma que o Gemini 2.5 agora gera e entende a fala diretamente em áudio, o que permite aos usuários interagir de maneira mais rápida e natural. O modelo aceita comandos em linguagem natural para modificar seu tom, sotaque e estilo, ao mesmo tempo em que adiciona características não verbais, como pausas e sussurros.

O sistema mantém a conectividade com ferramentas externas através do Google Search e APIs personalizadas, durante as conversas para recuperar informações relevantes.

Um recurso visa melhorar a conscientização do contexto. O sistema Gemini 2.5 detecta a fala ou ruído de fundo para fornecer respostas apenas quando apropriado. O sistema suporta entendimento de áudio-vídeo, que permite analisar e fornecer comentários sobre o feed de vídeo, ou conteúdo de tela compartilhada.

O componente de texto para fala também foi atualizado. Os usuários agora podem controlar a geração de áudio com recursos avançados que incluem ajuste de tom emocional, controle de ritmo, personalização de pronúncia e saída de áudio de vários alto-falantes. As funcionalidades funcionam com diferentes tipos de conteúdo, incluindo narração de histórias, anúncios e podcasts.

O Google disponibiliza o Gemini 2.5 Pro e prévias do Flash para desenvolvedores através do Google AI Studio ou Vertex AI. A prévia do Flash serve para uso rápido e acessível, mas o Pro oferece funcionalidades aprimoradas para prompts complexos.

O Google implementou a marca d’água através do SynthID em todo áudio gerado por IA durante o desenvolvimento para garantir transparência e realizou avaliações de risco para fins de segurança. A empresa realizou avaliações de segurança internas e externas antes de liberar o sistema para o público. O Google implementa essas funcionalidades como parte de sua iniciativa de desenvolver sistemas de IA multimodais, que operam entre texto, imagem, vídeo, código e áudio avançado.

Gostou desse artigo? Avalie!
Eu detestei Eu não gostei Achei razoável Muito bom! Eu adorei!

Estamos muito felizes que tenha gostado do nosso trabalho!

Como um leitor importante, você se importaria de nos avaliar no Trustpilot? É rápido e significa muito para nós. Obrigado por ser incrível!

Avalie-nos no Trustpilot
0 Votado por 0 usuários
Título
Comentar
Obrigado por seu feedback