Cada entrada en el conjunto de datos consiste en un archivo MP3 único y un archivo de texto correspondiente. Muchas de las 1,368 horas grabadas en el conjunto de datos también incluyen metadatos demográficos como edad, sexo y acento que pueden ayudar a entrenar la precisión de los motores de reconocimiento de voz. El conjunto de datos actualmente consta de 1,087 horas validadas en 18 idiomas, pero siempre estamos añadiendo más voces e idiomas.