Ayuda a crear el primer objetivo segmentado de Common Voice

Traducción del anuncio original en inglés

A partir de hoy, Common Voice tiene la capacidad de recopilar datos de voz para un propósito o caso de uso específico. Estamos poniendo a prueba esta capacidad y vamos a comenzar la recopilación de datos para un objetivo segmentado de una sola palabra que eventualmente permitirá

  1. reconocimiento de dígitos hablados
  2. detección de y no
  3. datos para la prueba de las palabras clave Hey Firefox.

Para que esto suceda, la web de Common Voice recopilará audio de colaboradores en varios idiomas hablando los dígitos cero a nueve, así como las palabras , no, hey y Firefox. Estas 14 frases (de una sola palabra) tendrán prioridad para cada colaborador cuando Hable o Escuche en Common Voice.

Para garantizar una amplia gama de datos en cada idioma, limitaremos el registro de estas frases a solo una vez por persona, por idioma. También reconocemos que escuchar a la gente decir que estos términos cortos en repetidas ocasiones puede ser aburrido y ser mentalmente fatigante. Para evitar el agotamiento y garantizar la calidad de la contribución al escuchar clips, cada persona solo recibirá un máximo de dos conjuntos (o 28 en total) de estas grabaciones.

¿Por qué un objetivo segmentado?

Esta recopilación de datos beneficiará inmediatamente a dos colaboraciones: la primera con el Mozilla Fellow, Josh Meyer, y la segunda con nuestros compañeros de equipo que desarolla Firefox Voice.

Parte del trabajo de Josh es descubrir cuántos datos se necesitan para entrenar un motor de aprendizaje automático en una nueva aplicación de reconocimiento de voz en un nuevo idioma. Para este trabajo, Josh tiene como objetivo evaluar la precisión del motor de reconocimiento de voz de código abierto de Mozilla, Deep Speech, en varios idiomas para una tarea similar.

Josh y el equipo de Deep Speech han identificado que el reconocimiento de dígitos hablados, así como la detección de sí y no, son excelentes candidatos para este tipo de pruebas de aplicaciones. La única advertencia es que necesitan datos para ejecutar esas pruebas y, citando al propio Josh; “Esos datos no existen … todavía”.

De manera similar, nuestros colegas de Mozilla en Emerging Technologies están probando opciones de “Wake Word” para Firefox Voice. Se acercaron con la curiosidad de si las comunidades de Common Voice podrían ayudar a generar datos de voz para Hey Firefox en varios idiomas.

Al agregar tu voz a este objetivo segmentado, estás contribuyendo al trabajo que están haciendo Josh, Deep Speech, Firefox Voice y Common Voice, sin mencionar a las personas que descargarán este objetivo segmentado y crearán aplicaciones de reconocimiento de voz en varios idiomas.

¿En qué idiomas se recopilará esto?

A partir de hoy, esta recopilación de datos específica está disponible en 13 idiomas *.

Si está disponible en tu(s) idioma(s), notarás 1) un banner que lo anuncia en el sitio web de Common Voice y 2) una nota en las tarjetas de frases a leer.

Nuestro objetivo es habilitar esta colección en tantos idiomas como sea posible. Para hacerlo, primero debemos obtener todas las palabras traducidas o transliteradas ** para cada idioma, verificadas por un hablante nativo. Una vez listos, se fusionarán y estarán disponibles para su uso en Common Voice.

Si está interesado en ayudar a contribuir a la traducción de estas palabras en tu(s) idioma(s), visita este repositorio de Githhub donde puedes enviar un “pull request” o un “issue” para su revisión.

¿Por qué es esto importante y qué sigue?

A medida que el proyecto Common Voice crece en tamaño de conjunto de datos, comunidad y alcance, se ha vuelto cada vez más importante para la plataforma poder distinguir el contexto de sus datos recopilados.

Proporcionar contexto, o un vocabulario de lo que se relaciona con los datos a través del etiquetado, permite una imagen más completa más allá del idioma, el acento, el sexo y la edad. Este nivel de detalle permitirá a los colaboradores, tanto a los miembros de la comunidad que envían grabaciones y frases, como a los investigadores y desarrolladores que analizan el resultado final, seleccionar el segmento que sea más relevante para ellos. Esto permitirá comentarios más detallados sobre cómo continuar mejorando el conjunto de datos, al tiempo que desbloqueará más posibilidades de utilidad y aplicación.

Para avanzar en este trabajo, el equipo explorará oportunidades que esta nueva estructura facilita, incluyendo el etiquetado a nivel de clip durante la fase de Escucha.

Nuestro objetivo es introducir segmentos de datos más específicos basados ​​en el contenido que se está grabando. Ejemplos de esto podrían ser etiquetar el ruido de fondo en un clip grabado o confirmar que el contenido está relacionado con la medicina o la geografía. Al implementar el etiquetado, tanto para las frases importadas como para los clips grabados, la estructura de datos obtenida es más completa y precisa. ¡Estad atentos al anuncio de ese lanzamiento y agregad vuestra voz al primer objetivo segmentado de Common Voice!

Saludos,

Megan + el equipo de Common Voice


*13 idiomas iniciales: árabe, catalán, inglés, alemán, español, francés, holandés, polaco, portugués, ruso, tamil, turco, tártaro.

** Para la captura de Hey como parte de Hey Firefox, el equipo de Firefox Voice desea utilizar un enfoque de transliteración para capturar enunciados más naturales y cómodos. Un ejemplo en francés es Hé Firefox en lugar de Salut Firefox.

Tengo dudas a cerca de la validación de voces.

Dependiendo del acento de cada región, algunas palabras pueden sonar diferente, por ejemplo, una “C” en latinoamérica creo que puede leerse como una “S”. De tal forma que la palabra “cinco” sonará como “sinco”. Incluso una “S” en Andalucía puede entenderse casi como una “Z”
La duda es si se deben validad como correctas dichas lecturas…

Una duda similar puede surgir con las palabras Hey, firefox u otros anglicismos (como wifi). En España no es común utilizar “Hey” con pronunciación inglesa, pero si es bastante común utilizar “Ey”. Firefox y wifi, se suelen pronunciar tal cual se leerían en castellano si no conocieses la raíz inglesa, es decir, no es común decir “fairfox” ni “waifai”.

Cuidado que no trato de abrir una discusión sobre que tipo de pronunciación es mejor o mas correcta, simplemente como no se como se van a tratar luego los datos para la creación de los motores stt yy tts no se cual debe ser el criterio a aplicar.

Gracias de antemano.
Un saludo.

Todas las pronunciaciones son validas, además de necesarias de capturar.

El dataset captura actualmente los acentos que la gente define en su perfil para entender todas estas variantes al entrenar modelos STT, y en un futuro próximo cambiaremos este sistema por capturar la ubicación aproximada

De tal forma que si tenemos suficientes voces de una zona geográfica, podremos optimizar los modelos que entiendan las peculiaridades sonoras.

Muchas gracias Rubén. Queda clarísimo.

Un saludo.

Una pregunta mas Rubén ¿Se deben descartar aquellas grabaciones en las que la calidad del audio es mala o se producen cortes?

Depende lo que llames “mala”, si el resultado es que hay palabras que no se entienden, se descarta votando no. Pero si hay un ruido de fondo pero se entiende, entonces hay que votar sí.

La diversidad de calidades de audio y ruidos de fondo también ayudan al algoritmo.

cortes de decenas de milisegundos muy repetidos. La verdad es que el audio que me ha despertado la duda me costaría un pooco entenderlo sin un contexto si no lo estuviese leyendo

Si con los ojos cerrados no entiendes lo que dice, es un no. Esa es mi prueba de fuego :smiley: