Cada entrada no conjunto de dados consiste em um arquivo MP3 único e um arquivo de texto correspondente. Muitas das 1.368 horas gravadas no conjunto de dados também incluem metadados demográficos como idade, sexo e sotaque que podem ajudar a treinar a precisão dos motores de reconhecimento de fala. O conjunto de dados atualmente consiste em 1.087 horas validadas em 18 idiomas, mas estamos sempre adicionando mais vozes e idiomas.