← Voltar ao início
NOVIDADE

Apresentando Studio-v3 (alpha)

O modelo de Text to Speech mais expressivo

3 de jun. de 2025 5 minutos de leitura

Introdução

Estamos felizes em revelar Studio-v3 (alpha) — o modelo de Text to Speech mais expressivo.

Este preview de pesquisa traz controle e realismo sem precedentes para a geração de fala com:

🌍
Mais de 70 idiomas
Suporte abrangente para idiomas globais com pronúncia nativa
👥
Diálogo com múltiplos falantes
Crie conversas naturais com diferentes vozes e personalidades
🎭
Tags de áudio expressivas
Use tags como [animado], [sussurra] e [suspira] para controle emocional

Studio-v3 (alpha) requer mais engenharia de prompt do que os modelos anteriores — mas as gerações são impressionantes.

Por que construímos o v3

Se você está trabalhando em vídeos, audiolivros ou ferramentas de mídia — isso desbloqueia um novo nível de expressividade. Para casos de uso em tempo real e conversacionais, recomendamos continuar com v2.5 Turbo ou Flash por enquanto. Uma versão em tempo real do v3 está em desenvolvimento.

O Studio-v3 foi desenvolvido para atender à crescente demanda por síntese de fala mais natural e expressiva, especialmente em aplicações que requerem alta qualidade emocional e controle fino sobre a entonação.

O que há de novo no Studio-v3 (alpha)

O Studio-v3 representa um salto significativo em expressividade e controle. As principais inovações incluem:

  • Controle emocional avançado: Tags de áudio permitem especificar emoções e estilos de fala com precisão
  • Suporte multilíngue expandido: Mais de 70 idiomas com pronúncia nativa autêntica
  • Diálogos naturais: Capacidade de criar conversas com múltiplos falantes de forma fluida
  • Qualidade de áudio superior: Fidelidade aprimorada e redução de artefatos

Usando tags de áudio

As tags de áudio são uma das funcionalidades mais poderosas do Studio-v3. Elas permitem controle granular sobre como o texto é falado:

Exemplos de tags:

  • [animado] - Para fala energética e entusiasmada
  • [sussurra] - Para fala baixa e íntima
  • [suspira] - Adiciona suspiros naturais
  • [pausa] - Insere pausas dramáticas
  • [enfático] - Para dar ênfase a palavras específicas

Criando diálogo com múltiplos falantes

O Studio-v3 permite criar diálogos naturais entre diferentes personagens, cada um com sua própria voz e personalidade. Isso é especialmente útil para:

  • Audiolivros com múltiplos personagens
  • Podcasts dramatizados
  • Conteúdo educacional interativo
  • Apresentações corporativas dinâmicas

Preços e disponibilidade

Studio-v3 está disponível hoje em nosso site. O acesso à API pública estará disponível em breve.

O modelo está atualmente em fase alpha, o que significa que estamos coletando feedback dos usuários para melhorias contínuas. Durante este período, o acesso é limitado para garantir a melhor experiência possível.

Quando não usar o v3

Embora o Studio-v3 seja poderoso, há cenários onde outros modelos podem ser mais adequados:

  • Aplicações em tempo real: Para chatbots e assistentes virtuais, recomendamos v2.5 Turbo
  • Uso conversacional: Para interações rápidas, Flash oferece melhor latência
  • Projetos simples: Se você não precisa de controle emocional avançado, modelos anteriores são mais eficientes

Pronto para experimentar o Studio-v3?

Descubra o futuro da síntese de fala com nosso modelo mais expressivo