Nueva version del dataset: 220 horas en español, más de 4200 en todos los idiomas

Hola

¡Espero estéis teniendo un gran inicio de año!

Me alegra anunciar la publicación de la publicación de 4200hrs del conjunto de datos de voz *. Gracias a todos, por vuestro arduo trabajo y compromiso, este conjunto de datos tiene 4257 horas totales de datos de voz aportados, lo que representa ¡un increíble aumento del 70% en el total de horas en comparación con junio de 2019!

Con la ayuda de colaboradores de la comunidad, hemos extraído Wikipedia para la recopilación de frases en los siguientes idiomas, y el esfuerzo ha valido la pena:

  • Inglés: 1.488 horas registradas, 1.118 horas validadas
  • Alemán: 538 horas registradas, 483 horas validadas
  • Francés: 412 horas registradas, 350 horas validadas
  • Catalán: 295 horas registradas, 245 horas validadas
  • Español - 221 horas registradas, 167 horas validadas
  • Italiano: 122 horas registradas, 85 horas validadas

Y no es solo importante la cantidad total de horas que se han recopilado, este conjunto de datos incluye grabaciones de voz en 40 idiomas, con 11 nuevos idiomas que nuestras comunidades han agregado desde junio de 2019: abjasio, árabe, chino (Hong Kong), indonesio, interlingua, japonés, letón, portugués, romanche (sursilván), tamil y Votic. Con aproximadamente 259 000 colaboradores de todo el mundo, Common Voice es más diverso que nunca.

En nombre de todo el equipo de Voice en Mozilla: ¡Gracias a todos por vuestras continuas aportaciones, vuestro apoyo, creatividad, consideración y paciencia!

Nos encantaría recibir vuestros comentarios sobre este nuevo conjunto de datos. Mientras que nuestro equipo DeepSpeech actualmente está realizando sus propias pruebas, confiamos en la comunidad para ayudarnos a hacer que la recopilación de datos futuros sea aún más valiosa en términos de calidad, diversidad y uso potencial.

Queremos saber en qué estáis trabajando y que continuéis compartiendo vuestros hallazgos con la comunidad aquí en Discourse.

(Si necesitas más información sobre cómo se divide el conjunto de datos, consulta Corpora Creator)

Y en caso de que aún no lo hayas visto: nuestro última versión de DeepSpeech 0.6 incluye una serie de optimizaciones de rendimiento, lo que facilita a los desarrolladores de aplicaciones usar el motor en muchas más situaciones.

Gracias por ayudar a avanzar en el desarrollo de tecnologías de voz descentralizadas y abiertas, no podemos esperar a ver qué nos depara el futuro.

*Este conjunto de datos se generó el 10 de diciembre de 2019

Announcement in English

1 Like

Excelente, muchas gracias por tanto trabajo.