NVIDIA Riva Sprach-KI-Plattform
NVIDIA Riva ist ein umfassendes, GPU-beschleunigtes Software-Entwicklungskit, das mehrsprachige Sprach- und Übersetzungsmikrodienste für den Aufbau vollständig anpassbarer, Echtzeit-Konversations-KI-Pipelines bietet. Die Plattform umfasst branchenführende automatische Spracherkennung (ASR), Text-zu-Sprache (TTS) und neuronale maschinelle Übersetzungsfähigkeiten (NMT), die in allen Clouds, Rechenzentren, Edge-Geräten und eingebetteten Systemen eingesetzt werden können.
Kernkomponenten und Funktionen
Riva bietet hochmoderne vortrainierte Modelle, die auf Tausenden von Stunden Audiomaterial trainiert wurden und mehrere Sprachen unterstützen, darunter Englisch, Spanisch, Deutsch, Russisch, Mandarin, Französisch, Hindi, Koreanisch und Portugiesisch. Die Plattform verfügt über die hochmoderne Parakeet-Modellfamilie, einschließlich des Parakeet TDT 0.6B v2, das eine branchenbeste Wortfehlerrate von 6,05 % erreicht und auf der Hugging Face ASR-Rangliste den ersten Platz belegt.
Die Plattform bietet gRPC-basierte Mikrodienste, die sowohl für Streaming mit niedriger Latenz als auch für hochdurchsatzstarke Offline-Anwendungsfälle optimiert sind, mit der Fähigkeit, auf Hunderttausende gleichzeitiger Benutzer zu skalieren. Die Architektur von Riva ist vollständig containerisiert, was eine nahtlose Bereitstellung und Skalierung auf Tausende paralleler Streams ermöglicht.
Leistung und Optimierung
Angetrieben durch NVIDIA TensorRT-Optimierungen und bereitgestellt über den NVIDIA Triton Inference Server, liefert Riva außergewöhnliche Leistung mit Inferenzzeiten von nur 150 Millisekunden im Vergleich zu 25 Sekunden auf reinen CPU-Plattformen. Die Plattform bietet bis zu 12-fache Leistungssteigerungen gegenüber früheren Generationen durch umfassende Stapeloptimierungen.
Unternehmenslösungen
Riva Enterprise bietet jährliche Nutzungslizenzen mit Unterstützung durch NVIDIA-Experten, priorisierten Zugang zu neuen Funktionen und unternehmensgerechte Bereitstellungsfähigkeiten für Organisationen, die produktionsreife Sprach-KI-Lösungen benötigen. Die Plattform integriert sich nahtlos mit großen Sprachmodellen und retrieval-augmented generation, um leistungsstarke mehrsprachige Assistenten und Avatare zu erstellen.