Nuevo conjunto de datos de mitad de año: ¡Más datos, más idiomas!

El equipo de Common Voice se complace en anunciar la publicación de un nuevo conjunto de datos que incluye un total de 2366 horas de datos de voz, y por primera vez ¡31 horas en español!

El proyecto ha visto un aumento en las colaboraciones y publicación de muchos nuevos idiomas en los últimos seis meses. Queremos asegurarnos de que la comunidad puede usar los datos de manera rápida y eficiente. Para hacer esto, hemos avanzado con una versión de mitad de año que incluye todos los clips grabados en 28 idiomas, disponibles en la página Archivo de datos en Common Voice.

Los nuevos idiomas que se publican hoy son: Casco, chino (simplificado), Dhivehi, estonio, kinyarwanda, mongol, ruso, sakha, español y sueco; algunos de estos son los primeros conjuntos de datos disponibles públicamente para estos idiomas.

Somos conscientes que los proyectos de investigación necesitarán una identificación de versión y lo vamos a hacer por idioma a través de nuestra convención de nombres: Idioma, número total de horas y fecha de publicación.

<LOCALE>_<TOTAL_INCLUDING_UNVALIDATED_HOURS>h_<ISO_DATE>

p.ej. en_1085h_2019-06-12

Esperamos vuestros comentarios y vuestras aportaciones mientras colaboramos para avanzar en el desarrollo de tecnologías de voz abierta.

Según lo prometido, pronto compartiremos información a la comunidad con una propuesta más detallada sobre nuestra estrategia para los conjuntos de datos a largo plazo, que probablemente incluya un ciclo de publicación de datos más predecible.

Finalmente, todo el equipo de Common Voice desea extender un sincero agradecimiento a esta gran comunidad y a todos los que han contribuido o han validado las voces.

¡Gracias!

2 Likes

Excelente!!! Muchas gracias, no puedo esperar para hacer mis pruebas :slight_smile:

Analizando los datos podemos ver que la mayoría de frases tienen unas 4 grabaciones, algo que no es muy útil para entrenar DeepSpeech.

Recuerdo este tema

Espero que a finales de mes podamos tener el extractor de wikipedia lo suficientemente maduro para incorporar más idiomas y hacer una extracción grande para el español.