
Image by Firmbee.com, from Unsplash
O Gemini 2.5 do Google Adiciona Ferramentas de Áudio em Tempo Real e Fala Personalizada
O Google introduziu capacidades de áudio nativas no modelo Gemini 2.5, que expandiu seu suporte nativo para diálogo em tempo real e geração controlável de texto-para-fala (TTS).
Com pressa? Aqui estão os fatos rápidos:
- Os usuários podem controlar o tom, o sotaque e a emoção usando a voz ou comandos.
- As funções de texto para fala permitem a geração de áudio expressivo, multilíngue e com múltiplos falantes.
- Gemini pode ignorar o ruído de fundo e responder apenas quando relevante.
O Google anunciou que usuários e desenvolvedores agora podem usar a IA para conversas faladas e produzir conteúdo de áudio, através de mais de 24 opções de idiomas.
O Google afirma que o Gemini 2.5 agora gera e entende a fala diretamente em áudio, o que permite aos usuários interagir de maneira mais rápida e natural. O modelo aceita comandos em linguagem natural para modificar seu tom, sotaque e estilo, ao mesmo tempo em que adiciona características não verbais, como pausas e sussurros.
O sistema mantém a conectividade com ferramentas externas através do Google Search e APIs personalizadas, durante as conversas para recuperar informações relevantes.
Um recurso visa melhorar a conscientização do contexto. O sistema Gemini 2.5 detecta a fala ou ruído de fundo para fornecer respostas apenas quando apropriado. O sistema suporta entendimento de áudio-vídeo, que permite analisar e fornecer comentários sobre o feed de vídeo, ou conteúdo de tela compartilhada.
O componente de texto para fala também foi atualizado. Os usuários agora podem controlar a geração de áudio com recursos avançados que incluem ajuste de tom emocional, controle de ritmo, personalização de pronúncia e saída de áudio de vários alto-falantes. As funcionalidades funcionam com diferentes tipos de conteúdo, incluindo narração de histórias, anúncios e podcasts.
O Google disponibiliza o Gemini 2.5 Pro e prévias do Flash para desenvolvedores através do Google AI Studio ou Vertex AI. A prévia do Flash serve para uso rápido e acessível, mas o Pro oferece funcionalidades aprimoradas para prompts complexos.
O Google implementou a marca d’água através do SynthID em todo áudio gerado por IA durante o desenvolvimento para garantir transparência e realizou avaliações de risco para fins de segurança. A empresa realizou avaliações de segurança internas e externas antes de liberar o sistema para o público. O Google implementa essas funcionalidades como parte de sua iniciativa de desenvolver sistemas de IA multimodais, que operam entre texto, imagem, vídeo, código e áudio avançado.