Ogni voce nel dataset consiste in un file MP3 unico e un file di testo corrispondente. Molte delle 1.368 ore registrate nel dataset includono anche metadati demografici come età, sesso e accento che possono aiutare ad allenare l'accuratezza dei motori di riconoscimento vocale. Attualmente, il dataset consiste di 1.087 ore validate in 18 lingue, ma stiamo sempre aggiungendo più voci e lingue.