📕 Guía para validación de grabaciones en common voice

PROYECTO DE DIRECTRICES PARA REVISAR GRABACIONES

Problemas con la grabación.

Malentendidos

Se debe verificar con mucho cuidado que lo que se ha grabado es exactamente lo que se ha escrito; rechaza si hay incluso errores menores. Los errores más comunes son:

  • Pérdida de ‘Un, Uno, La, Los’ al comienzo de la grabación.
  • Falta una ‘S’ al final de una palabra.
  • Perder el final de la última palabra cortando la grabación demasiado rápido.
  • Tomando varios intentos de leer una palabra.

Por ejemplo:

  • : white_check_mark: Los carros viajan por la carretera.
  • :X:Carros viajan por la carretera.
    [‘Los’ omitido]
  • :X:Los carro viajan por la carretera.
    [Deberían ser ‘carros’]
  • :X:Los carros viajan por la carretera.Cuando
    [Grabación es cortada antes del final de la última palabra]
  • :X:Los carros viajan por la carretera-nueva.
  • [Se ha registrado más que el texto requerido]
  • [El primer ‘nueva-’ no está en el texto escrito]

Pronunciaciones variadas

Ten cuidado antes de rechazar un clip sobre la base donde el lector ha pronunciado mal una palabra, ha puesto el enfoque en el lugar equivocado o aparentemente ha ignorado un signo de interrogación. Hay una gran variedad de pronunciaciones en uso en todo el mundo, algunas de las cuales tal vez no haya escuchado en su comunidad local. Proporciona un margen de apreciación para aquellos que pueden hablar de manera diferente a ti.

Por otro lado, si cree que el lector probablemente nunca se ha cruzado con la palabra antes, y simplemente está haciendo una suposición incorrecta sobre la pronunciación, rechaza. Si no estas seguro, usa el botón de omisión.

Ruido de fondo

Queremos que los algoritmos de aprendizaje automático puedan manejar una variedad de ruido de fondo, e incluso se pueden aceptar ruidos relativamente altos siempre que no impidan que escuche la totalidad del texto. La música de fondo tranquila está bien; música lo suficientemente alta como para evitar que escuches todas y cada una de las palabras no.

  • : white_check_mark: {Estornudar} Los dinosaurios gigantes del Triásico {tos}.
  • :X:El gigante dino {tos} el Triásico.
    [Parte del texto no se puede escuchar]

Si la grabación se interrumpe o tiene crujidos, rechace a menos que se pueda escuchar la totalidad del texto:

  • :X:{Crackle} dinosaurios gigantes de {crackle} -riassic.
    [Parte del texto no se puede escuchar]

Voces de fondo

Un ruido de fondo silencioso está bien, pero no queremos voces adicionales que puedan hacer que un algoritmo identifique palabras que no están en escritas en el texto. Si puedes escuchar palabras distintas aparte de las del texto, el clip debe ser rechazado. Por lo general, esto sucede donde se ha dejado encendida la TV, o donde hay una conversación cerca.

  • :X:Los dinosaurios gigantes del Triásico. [leído por una sola voz] ¿Vienes? [llamado por otro]

Volumen

Habrá variaciones naturales en el volumen entre los lectores. Rechaza solo si el volumen es tan alto que la grabación se interrumpe, o (más comúnmente) si es tan bajo que no puedes escuchar lo que se dice sin referencia al texto escrito.

Efectos de lectura

La mayoría de las grabaciones son de personas que hablan con su voz natural. Puedes aceptar la grabación ocasional no estándar que se grita, se susurra o, obviamente, se entrega con una voz “dramática”. Rechaza las grabaciones cantadas y las que usan una voz sintetizada por computadora.

Problemas con el texto escrito.

Consulta Discusión de nuevas pautas para la validación de oraciones cargadas

¿Todavía no estás seguro?

Si encuentras algo que estas pautas no cubren, vote de acuerdo a su mejor criterio. Si realmente no puede decidir, use el botón de omisión y continúe con la próxima grabación.

Puedes consultar la version original en el siguiente enlace: Discussion of new guidelines for recording validation

2 Likes

Gracias por la traducción @fernando_ep :slight_smile:

Hola!

Antes que nada gracias por traducir este artículo.

Dejé una respuesta en otro hilo en la que mencioné este FAQ, y cosas que me parece que no están tan bien, y se me ocurrió mejor decirlas acá nuevamente así se pueden discutir mejor.

¿Se puede modificar este FAQ para hacerlo un poco más relevante al español, o tiene que ser una traducción del de inglés?

Hay un par de cosas que me gustaría discutir (y modificar, si les parece).

  • Uso de /s/ al final de una palabra.

    Hay audios en los que quien habla no pronuncia la /s/ al final de una palabra. Creo que la regla original está pensada para descartar audios que hayan sido cortados antes de tiempo, y en inglés puede que tenga más validez. Pero en español hay acentos en los que es más frecuente la omisión de una /s/ al final de alguna palabra. Personalmente hablo rioplatense, y hay gente que omite /s/ en el habla normal. En Wikipedia hay un poco más al respecto. Y no sé exactamente de dónde será la gente que escucho, pero algunos suenan como de algún lugar de España, y a veces tampoco usan /s/ al final.
    Mi principal problema con esto es que en mi experiencia, ese acento es del “habla más popular” (Wikipedia), y no me parece bueno crear una base de datos que no represente a gente menos privilegiada.

  • Palabras en inglés

    Esto no sé bien cómo hacer. Escuchando audios creo que la gente que suena española suele leer más literalmente las palabras en inglés, mientras que la gente de acento latinoamericano las lee más en inglés. Sin saber mucho como afecta al producto final, creo que dejaría que todas las pronunciaciones “razonables” sean válidas. También hay algo de contexto. James Bond y James Rodriguez se escriben igual pero siempre escuché a Bond pronunciado en inglés y a Rodriguez en español.

  • Abreviaciones

    Esto es un artefacto creado por el sentence extractor. Hay oraciones que terminan en “Av.” o “Mr.” o algo así que claramente falta algo en la oración. La página de validación ya tiene un botón para reportar frases por gramática, etc. Creo que estaría bueno hablar de reportar frases en este FAQ, y que sea algo bastante principal, no una oración perdida en el mar de texto.

  • Acentuacion / gramática

    Hay veces que la frase tiene algún error ortográfico y la persona dice la frase en su forma correcta, no en la forma en que está escrita. Por ejemplo: “José se caso ayer” es lo que está escrito, pero “José se casó ayer” es lo que está dicho en el audio. ¿Qué tendríamos que hacer en este caso? Yo creo que reportaría las frases por error gramatical/ortográfico, pero creo que es una pregunta que tiene que contestar alguien con bastante más experiencia en el dominio de entrenamiento de estos sistemas. Así como un ser humano es capaz de darse cuenta y corregir en el acto tildes faltantes, capaz que tiene valor entrenar un modelo que pueda hacer lo mismo.

  • Frases con errores gramaticales leídas correctamente

    Estas no son muy comunes, pero debo haber visto 5 o 6 en 500. Frases como “Los autos y les aviones son grandes” (y la grabación lee textual lo que está escrito). Esta creo que también es una pregunta para alguien que sepa más de reconocimiento de voz y entrenamiento. Así como un humano es capaz de darse cuenta de que algo “no está bien” sin saber todas las reglas del español, puede que se quiera entrenar un modelo que aprenda una gramática a partir de miles de audios. Personalmente las reporto como error gramatical.

Bueno, creo que eso es todo jaja. Gracias por leer!

Gracias por las aportaciones, sin duda debemos mejorar la guía para añadir casuística que nos encontramos en español :slight_smile:

@fernando_ep ¿puedes editar el primer mensaje y hacerlo wiki para que otros puedan editar? Gracias.

Acentuacion / gramática

Hay veces que la frase tiene algún error ortográfico y la persona dice la frase en su forma correcta, no en la forma en que está escrita. Por ejemplo: “José se caso ayer” es lo que está escrito, pero “José se casó ayer” es lo que está dicho en el audio. ¿Qué tendríamos que hacer en este caso?

Me encontré con varios de estos casos. ¿Qué deberíamos hacer? Me da miedo que por haber reglas poco claras se cree un dataset que despues no sirva.