Jeder Eintrag im Datensatz besteht aus einer einzigartigen MP3- und einer entsprechenden Textdatei. Viele der 1.368 aufgezeichneten Stunden im Datensatz enthalten auch demografische Metadaten wie Alter, Geschlecht und Akzent, die helfen können, die Genauigkeit von Spracherkennungssystemen zu verbessern. Der Datensatz besteht derzeit aus 1.087 validierten Stunden in 18 Sprachen, aber wir fügen ständig weitere Stimmen und Sprachen hinzu.