Ayuda a crear el primer objetivo segmentado de Common Voice

Todas las pronunciaciones son validas, además de necesarias de capturar.

El dataset captura actualmente los acentos que la gente define en su perfil para entender todas estas variantes al entrenar modelos STT, y en un futuro próximo cambiaremos este sistema por capturar la ubicación aproximada

De tal forma que si tenemos suficientes voces de una zona geográfica, podremos optimizar los modelos que entiendan las peculiaridades sonoras.