Piattaforma NVIDIA Riva Speech AI
NVIDIA Riva è un kit di sviluppo software completo accelerato da GPU che fornisce microservizi di riconoscimento vocale e traduzione multilingue per costruire pipeline di intelligenza artificiale conversazionale in tempo reale completamente personalizzabili. La piattaforma include capacità di riconoscimento vocale automatico (ASR), sintesi vocale (TTS) e traduzione automatica neurale (NMT) leader del settore, che possono essere distribuite su tutti i cloud, data center, dispositivi edge e sistemi embedded.
Componenti e Caratteristiche Principali
Riva offre modelli preaddestrati all'avanguardia, addestrati su migliaia di ore di dati audio, supportando più lingue tra cui inglese, spagnolo, tedesco, russo, mandarino, francese, hindi, coreano e portoghese. La piattaforma presenta la famiglia di modelli Parakeet all'avanguardia, incluso il Parakeet TDT 0.6B v2 che raggiunge un tasso di errore di parole del 6,05%, il migliore del settore, e si classifica al primo posto nella classifica ASR di Hugging Face.
La piattaforma fornisce microservizi basati su gRPC ottimizzati sia per lo streaming a bassa latenza che per i casi d'uso offline ad alta capacità, con la capacità di scalare fino a centinaia di migliaia di utenti simultanei. L'architettura di Riva è completamente containerizzata, consentendo una distribuzione e una scalabilità senza soluzione di continuità a migliaia di flussi paralleli.
Prestazioni e Ottimizzazione
Alimentato dalle ottimizzazioni NVIDIA TensorRT e servito tramite NVIDIA Triton Inference Server, Riva offre prestazioni eccezionali con tempi di inferenza fino a 150 millisecondi rispetto ai 25 secondi sulle piattaforme solo CPU. La piattaforma fornisce fino a 12 volte i guadagni di prestazioni rispetto alle generazioni precedenti attraverso ottimizzazioni complete dello stack.
Soluzioni Aziendali
Riva Enterprise offre licenze d'uso annuali con supporto esperto NVIDIA, accesso prioritario a nuove funzionalità e capacità di distribuzione di livello aziendale per le organizzazioni che richiedono soluzioni di intelligenza artificiale vocale su scala produttiva. La piattaforma si integra perfettamente con modelli di linguaggio di grandi dimensioni e generazione aumentata dal recupero per creare potenti assistenti e avatar multilingue.