Chaque entrée dans le jeu de données se compose d'un fichier MP3 unique et d'un fichier texte correspondant. Beaucoup des 1 368 heures enregistrées dans le jeu de données incluent également des métadonnées démographiques comme l'âge, le sexe et l'accent qui peuvent aider à entraîner la précision des moteurs de reconnaissance vocale. Le jeu de données se compose actuellement de 1 087 heures validées dans 18 langues, mais nous ajoutons toujours plus de voix et de langues.