Was gefällt dir am besten Kaldi ASR?
Die Vorteile von Kaldi liegen darin, dass die Möglichkeiten zur Anpassung von akustischen Modellen nahezu unbegrenzt sind, sobald man es nach viel Erfahrung sehr gut kennt. Die Benutzer-Community von Kaldi ist ziemlich groß und interaktiv, und es ist wahrscheinlich, dass jemand das gleiche Problem hatte wie Sie, wenn Sie nur wissen, wonach Sie suchen müssen. Es gibt viele nützliche Werkzeuge im utils/-Ordner, obwohl sie alle gründlich angepasst werden müssen, um für den Modellaufbau angemessen genutzt zu werden, da der Prozess von Natur aus datengetrieben ist. Kaldi fühlt sich wie ein riesiges Puzzle an, und es zusammenzusetzen ist auf eine seltsame, masochistische Weise ziemlich lohnend. Es ist großartig, dass es, da es gemeinschaftsbasiert ist, viele vorgefertigte Rezepte gibt, die leicht für verschiedene Anwendungsfälle anpassbar sind und dass man mit seinem eigenen Rezept beitragen kann. Mein eigener heiliger Gral, zu dem ich immer wieder zurückkehre, ist das Eleanor Chodroff-Tutorial zum Aufbau von Kaldi-Akustikmodellen, da es die spezielle Datenstruktur beschreibt, die für den Prozess erforderlich ist. Bewertung gesammelt von und auf G2.com gehostet.
Was gefällt Ihnen nicht? Kaldi ASR?
Nun. Es gibt viele Probleme, die ich in Bezug auf Kaldi ansprechen muss. Dies sind nur einige der Dinge, die jeder kennt und akzeptiert hat, aber die Quintessenz ist, dass Kaldi derzeit nicht benutzerfreundlich oder intuitiv ist. Obwohl es viele Rezepte gibt, sind sie alle nahezu nutzlos, da sie alle gründlich angepasst werden müssen, da der Sinn der Erstellung eines benutzerdefinierten ASR-Modells darin besteht, dass es vollständig datengetrieben ist. Es gibt keine Erklärungen, was die vielen Dienstprogramme sind oder warum sie in welcher Reihenfolge auftreten müssen. Der einzige Weg, Kaldi zu lernen, ist durch gründliches Ausprobieren. Wenn man versucht, Dan Povey im Forum Fragen zu stellen, erhält man eine passiv-aggressive Antwort, die dünn als Ratschlag getarnt ist und einem sagt, man solle die Karriere wechseln und aufhören, Spracherkennung zu machen. Das gesamte Framework ist so unintuitiv, dass es keinen Sinn ergibt. Wörtlich jede Benutzeroberfläche oder einige umfassendere und klarere Anweisungen wären großartig.
Was mich auch ärgert, ist, dass es so viele fantastische Sprachrepräsentationssysteme gibt, mit denen man ein großartiges LM erstellen kann, aber da Kaldi nur mit dem ARPA-Format arbeitet, wird jeglicher großer Fortschritt in der Qualität der ASR in Bezug auf LMs verhindert.
Ein weiteres Problem ist, dass man, wenn man einen Fehler macht, praktisch von vorne anfangen muss.
Besonders da Kaldi so datengetrieben ist, ist es besonders schwierig, AM-Bauprozesse zu automatisieren, was das Unternehmenswachstum behindert, wenn Kaldi das Hauptwerkzeug ist, das dort verwendet wird. Bewertung gesammelt von und auf G2.com gehostet.