Nuevo conjunto de datos de mitad de año: ¡Más datos, más idiomas!

nukeador (Rubén Martín [❌ taking a break from Mozilla]) June 13, 2019, 12:38pm 3

Analizando los datos podemos ver que la mayoría de frases tienen unas 4 grabaciones, algo que no es muy útil para entrenar DeepSpeech.

Recuerdo este tema

Espero que a finales de mes podamos tener el extractor de wikipedia lo suficientemente maduro para incorporar más idiomas y hacer una extracción grande para el español.

Topic		Replies	Views
Nueva version del dataset: 220 horas en español, más de 4200 en todos los idiomas Español (es)	1	1788	January 15, 2020
Cuando estará disponible? Español (es)	4	3551	September 9, 2020
Nueva versión del conjunto de datos de Common Voice - Mediados de 2020 Español (es)	1	1428	July 2, 2020
4200h Voice Dataset Release: More Than 4,200 Common Voice Hours Now Ready For Download Common Voice announcements , dataset	20	3933	April 21, 2020
Ayuda a crear el primer objetivo segmentado de Common Voice Español (es)	7	4324	May 29, 2020

Nuevo conjunto de datos de mitad de año: ¡Más datos, más idiomas!

Related topics