Nueva versión del conjunto de datos de Common Voice - Mediados de 2020

¡Más datos, más idiomas y presentación de nuestro primer objetivo segmentado!

¡Estamos a mediados de 2020, y ha sido un año emocionante para Common Voice!

Gracias al entusiasmo y la increíble participación de nuestras comunidades de Common Voice, acabamos de publicar un conjunto de datos actualizado con 7226 horas totales de datos de voz. 5591 de estas horas han sido confirmadas como válidas por nuestros colaboradores diligentes. Dato curioso del conjunto de datos: ¡esta versión consta de más de 5,5 millones de clips *!

Common Voice no solo está creciendo, sino que continúa diversificándose. Esta versión incluye grabaciones de voz en 54 idiomas, 14 de estos idiomas ** son nuevos en la plataforma y en el conjunto de datos. Estamos teniendo más idiomas con más de 5,000 hablantes únicos *** y un aumento de idiomas con más de 500 horas grabadas ****. Con aportaciones de todo el mundo, nos está ayudando a cumplir nuestro objetivo de crear un conjunto de datos de voz que esté disponible públicamente para cualquier persona y que represente el mundo en el que vivimos.

¡También nos enorgullece anunciar el lanzamiento de nuestro primer objetivo segmentado de conjunto de datos!

En mayo, Common Voice comenzó a recopilar datos de voz para un propósito o caso de uso específico. Ahora, estamos lanzando el objetivo segmentado de una sola palabra que incluye los dígitos cero a nueve, así como las palabras , no, hey y Firefox. El objetivo segmentado publicado tiene 120 horas totales grabadas, con 64 horas válidas, en 18 idiomas. ¡Fue creado en un mes por más de 11000 voces únicas de colaboradores! Los datos de este segmento ayudarán a Mozilla a evaluar la precisión de nuestro motor de reconocimiento de voz de código abierto, Deep Speech, en varios idiomas para una tarea similar y permitirá comentarios más detallados sobre cómo para continuar mejorando el conjunto de datos.

De todo el equipo de Voice en Mozilla: ¡Gracias por vuestras continuas aportaciones, vuestro apoyo y vuestro entusiasmo! Comenzando la segunda mitad de 2020, esperamos continuar nuestra misión de construir un Internet mejor y más abierto.

Saludos,

Megan + el equipo de Common Voice


*La duración promedio del clip es de 4.7 segundos.

** 14 nuevos idiomas incluidos en esta versión: serbio superior, rumano, frisón, checo, griego, romanche Vallader, polaco, asamés, ucraniano, maltés, georgiano, punjabi, odia y vietnamita.

*** Idiomas con más de 5,000 hablantes únicos: inglés, alemán, francés, italiano, español

**** Idiomas con más de 500 horas grabadas: inglés, alemán, francés, cabilio, catalán, español, kinyarwandan

Tema original en inglés

2 Likes

Para el español estos son los datos incluídos en esta versión:

  • Número total de horas: 521
  • Número de horas validadas: 287
  • Número de voces: 18908
  • Acentos: 12% España: Sur peninsular (Andalucia, Extremadura, Murcia)
    10% España: Norte peninsular (Asturias, Castilla y León, Cantabria, País Vasco, Navarra, Aragón, La Rioja, Guadalajara, Cuenca)
    6% México
    5% Andino-Pacífico: Colombia, Perú, Ecuador, oeste de Bolivia y Venezuela andina
    4% Rioplatense: Argentina, Uruguay, este de Bolivia, Paraguay
    3% España: Centro-Sur peninsular (Madrid, Toledo, Castilla-La Mancha)
    3% Caribe: Cuba, Venezuela, Puerto Rico, República Dominicana, Panamá, Colombia caribeña, México caribeño, Costa del golfo de México
    2% América central
    2% Chileno: Chile, Cuyo
  • Edades: 28% 19 - 29
    11% 60 - 69
    10% 30 - 39
    9% 50 - 59
    6% 40 - 49
    3% < 19
  • Género: 46% Hombre - 19% Mujer
1 Like