Parler TTS è un modello avanzato e leggero di sintesi vocale progettato per generare un discorso di alta qualità e dal suono naturale che rispecchia lo stile di un oratore specificato. Addestrato su 45.000 ore di audiolibri narrati in inglese, offre coerenza del parlante attraverso generazioni con 34 oratori caratterizzati che possono essere specificati per nome.
Caratteristiche principali e funzionalità:
- Voce ad alta fedeltà: Produce un discorso dal suono straordinariamente naturale con eccezionale qualità e chiarezza audio.
- Coerenza del parlante: Mantiene caratteristiche coerenti del parlante attraverso più generazioni utilizzando 34 oratori predefiniti.
- Funzionalità controllabili: Consente agli utenti di controllare genere, rumore di fondo, velocità di parlato, tono e riverbero tramite semplici prompt di testo.
- Inferenza ottimizzata: Supporta SDPA, torch.compile, batching e streaming per una generazione più veloce.
- Completamente open-source: Tutti i dataset, il codice di pre-elaborazione, di addestramento e i pesi sono pubblicamente rilasciati sotto la licenza Apache 2.0.
- Supporto per il fine-tuning: Fornisce documentazione completa per l'addestramento e il fine-tuning di modelli Parler TTS personalizzati.
Valore primario e soluzioni per gli utenti:
Parler TTS risponde alla necessità di soluzioni di sintesi vocale di alta qualità e personalizzabili offrendo un modello che fornisce un discorso dal suono naturale con caratteristiche coerenti del parlante. La sua natura open-source consente a sviluppatori e ricercatori di costruire e adattare il modello a specifiche applicazioni, migliorando l'accessibilità e il coinvolgimento degli utenti su varie piattaforme.