Nueva version del dataset: 220 horas en español, más de 4200 en todos los idiomas

nukeador · January 14, 2020, 6:42pm

Hola

¡Espero estéis teniendo un gran inicio de año!

Me alegra anunciar la publicación de la publicación de 4200hrs del conjunto de datos de voz *. Gracias a todos, por vuestro arduo trabajo y compromiso, este conjunto de datos tiene 4257 horas totales de datos de voz aportados, lo que representa ¡un increíble aumento del 70% en el total de horas en comparación con junio de 2019!

Con la ayuda de colaboradores de la comunidad, hemos extraído Wikipedia para la recopilación de frases en los siguientes idiomas, y el esfuerzo ha valido la pena:

Inglés: 1.488 horas registradas, 1.118 horas validadas
Alemán: 538 horas registradas, 483 horas validadas
Francés: 412 horas registradas, 350 horas validadas
Catalán: 295 horas registradas, 245 horas validadas
Español - 221 horas registradas, 167 horas validadas
Italiano: 122 horas registradas, 85 horas validadas

Y no es solo importante la cantidad total de horas que se han recopilado, este conjunto de datos incluye grabaciones de voz en 40 idiomas, con 11 nuevos idiomas que nuestras comunidades han agregado desde junio de 2019: abjasio, árabe, chino (Hong Kong), indonesio, interlingua, japonés, letón, portugués, romanche (sursilván), tamil y Votic. Con aproximadamente 259 000 colaboradores de todo el mundo, Common Voice es más diverso que nunca.

En nombre de todo el equipo de Voice en Mozilla: ¡Gracias a todos por vuestras continuas aportaciones, vuestro apoyo, creatividad, consideración y paciencia!

Nos encantaría recibir vuestros comentarios sobre este nuevo conjunto de datos. Mientras que nuestro equipo DeepSpeech actualmente está realizando sus propias pruebas, confiamos en la comunidad para ayudarnos a hacer que la recopilación de datos futuros sea aún más valiosa en términos de calidad, diversidad y uso potencial.

Queremos saber en qué estáis trabajando y que continuéis compartiendo vuestros hallazgos con la comunidad aquí en Discourse.

(Si necesitas más información sobre cómo se divide el conjunto de datos, consulta Corpora Creator)

Y en caso de que aún no lo hayas visto: nuestro última versión de DeepSpeech 0.6 incluye una serie de optimizaciones de rendimiento, lo que facilita a los desarrolladores de aplicaciones usar el motor en muchas más situaciones.

Gracias por ayudar a avanzar en el desarrollo de tecnologías de voz descentralizadas y abiertas, no podemos esperar a ver qué nos depara el futuro.

*Este conjunto de datos se generó el 10 de diciembre de 2019

Announcement in English

carlfm01 · January 15, 2020, 9:18am

Excelente, muchas gracias por tanto trabajo.

Topic		Replies	Views
Nuevo conjunto de datos de mitad de año: ¡Más datos, más idiomas! Español (es)	10	2186	July 6, 2019
Nueva versión del conjunto de datos de Common Voice - Mediados de 2020 Español (es)	1	1431	July 2, 2020
4200h Voice Dataset Release: More Than 4,200 Common Voice Hours Now Ready For Download Common Voice announcements , dataset	20	3941	April 21, 2020
Common Voice 2021 Mid-year Dataset Release! Common Voice announcements , dataset	7	2889	August 4, 2021
Common Voice 22.0 release 🎉 Common Voice	0	567	June 25, 2025

Nueva version del dataset: 220 horas en español, más de 4200 en todos los idiomas

Related topics