Parler TTS é um modelo avançado e leve de conversão de texto em fala, projetado para gerar fala de alta qualidade e som natural que espelha o estilo de um locutor especificado. Treinado com 45.000 horas de audiolivros narrados em inglês, oferece consistência de locutor em várias gerações com 34 locutores caracterizados que podem ser especificados pelo nome.
Principais Características e Funcionalidades:
- Fala de Alta Fidelidade: Produz fala notavelmente natural com qualidade de áudio e clareza excepcionais.
- Consistência de Locutor: Mantém características consistentes do locutor em várias gerações usando 34 locutores predefinidos.
- Recursos Controláveis: Permite aos usuários controlar gênero, ruído de fundo, taxa de fala, tom e reverberação através de simples comandos de texto.
- Inferência Otimizada: Suporta SDPA, torch.compile, batching e streaming para geração mais rápida.
- Totalmente Open-Source: Todos os conjuntos de dados, pré-processamento, código de treinamento e pesos são liberados publicamente sob a licença Apache 2.0.
- Suporte a Ajustes Fino: Fornece documentação abrangente para treinamento e ajuste fino de modelos Parler TTS personalizados.
Valor Principal e Soluções para Usuários:
Parler TTS atende à necessidade de soluções de conversão de texto em fala de alta qualidade e personalizáveis, oferecendo um modelo que entrega fala de som natural com características consistentes de locutor. Sua natureza open-source capacita desenvolvedores e pesquisadores a construir e adaptar o modelo para aplicações específicas, melhorando a acessibilidade e o engajamento do usuário em várias plataformas.