Parler TTS es un modelo avanzado y ligero de texto a voz diseñado para generar un habla de alta calidad y sonido natural que refleja el estilo de un hablante especificado. Entrenado con 45,000 horas de audiolibros narrados en inglés, ofrece consistencia de hablante a través de generaciones con 34 hablantes caracterizados que pueden ser especificados por nombre.
Características y Funcionalidad Clave:
- Habla de Alta Fidelidad: Produce un habla notablemente natural con una calidad de audio y claridad excepcionales.
- Consistencia del Hablante: Mantiene características consistentes del hablante a través de múltiples generaciones utilizando 34 hablantes predefinidos.
- Características Controlables: Permite a los usuarios controlar el género, el ruido de fondo, la velocidad de habla, el tono y la reverberación a través de simples indicaciones de texto.
- Inferencia Optimizada: Soporta SDPA, torch.compile, procesamiento por lotes y transmisión para una generación más rápida.
- Completamente de Código Abierto: Todos los conjuntos de datos, pre-procesamiento, código de entrenamiento y pesos se publican bajo la licencia Apache 2.0.
- Soporte de Ajuste Fino: Proporciona documentación completa para entrenar y ajustar modelos personalizados de Parler TTS.
Valor Principal y Soluciones para el Usuario:
Parler TTS aborda la necesidad de soluciones de texto a voz de alta calidad y personalizables al ofrecer un modelo que entrega un habla de sonido natural con características consistentes del hablante. Su naturaleza de código abierto empodera a desarrolladores e investigadores para construir y adaptar el modelo a aplicaciones específicas, mejorando la accesibilidad y el compromiso del usuario a través de varias plataformas.