馃摃 Gu铆a para validaci贸n de grabaciones en common voice

PROYECTO DE DIRECTRICES PARA REVISAR GRABACIONES

Problemas con la grabaci贸n.

Malentendidos

Se debe verificar con mucho cuidado que lo que se ha grabado es exactamente lo que se ha escrito; rechaza si hay incluso errores menores. Los errores m谩s comunes son:

  • P茅rdida de 鈥楿n, Uno, La, Los鈥 al comienzo de la grabaci贸n.
  • Falta una 鈥楽鈥 al final de una palabra.
  • Perder el final de la 煤ltima palabra cortando la grabaci贸n demasiado r谩pido.
  • Tomando varios intentos de leer una palabra.

Por ejemplo:

  • : white_check_mark: Los carros viajan por la carretera.
  • :X:Carros viajan por la carretera.
    [鈥楲os鈥 omitido]
  • :X:Los carro viajan por la carretera.
    [Deber铆an ser 鈥榗arros鈥橾
  • :X:Los carros viajan por la carretera.Cuando
    [Grabaci贸n es cortada antes del final de la 煤ltima palabra]
  • :X:Los carros viajan por la carretera-nueva.
  • [Se ha registrado m谩s que el texto requerido]
  • [El primer 鈥榥ueva-鈥 no est谩 en el texto escrito]

Pronunciaciones variadas

Ten cuidado antes de rechazar un clip sobre la base donde el lector ha pronunciado mal una palabra, ha puesto el enfoque en el lugar equivocado o aparentemente ha ignorado un signo de interrogaci贸n. Hay una gran variedad de pronunciaciones en uso en todo el mundo, algunas de las cuales tal vez no haya escuchado en su comunidad local. Proporciona un margen de apreciaci贸n para aquellos que pueden hablar de manera diferente a ti.

Por otro lado, si cree que el lector probablemente nunca se ha cruzado con la palabra antes, y simplemente est谩 haciendo una suposici贸n incorrecta sobre la pronunciaci贸n, rechaza. Si no estas seguro, usa el bot贸n de omisi贸n.

Ruido de fondo

Queremos que los algoritmos de aprendizaje autom谩tico puedan manejar una variedad de ruido de fondo, e incluso se pueden aceptar ruidos relativamente altos siempre que no impidan que escuche la totalidad del texto. La m煤sica de fondo tranquila est谩 bien; m煤sica lo suficientemente alta como para evitar que escuches todas y cada una de las palabras no.

  • : white_check_mark: {Estornudar} Los dinosaurios gigantes del Tri谩sico {tos}.
  • :X:El gigante dino {tos} el Tri谩sico.
    [Parte del texto no se puede escuchar]

Si la grabaci贸n se interrumpe o tiene crujidos, rechace a menos que se pueda escuchar la totalidad del texto:

  • :X:{Crackle} dinosaurios gigantes de {crackle} -riassic.
    [Parte del texto no se puede escuchar]

Voces de fondo

Un ruido de fondo silencioso est谩 bien, pero no queremos voces adicionales que puedan hacer que un algoritmo identifique palabras que no est谩n en escritas en el texto. Si puedes escuchar palabras distintas aparte de las del texto, el clip debe ser rechazado. Por lo general, esto sucede donde se ha dejado encendida la TV, o donde hay una conversaci贸n cerca.

  • :X:Los dinosaurios gigantes del Tri谩sico. [le铆do por una sola voz] 驴Vienes? [llamado por otro]

Volumen

Habr谩 variaciones naturales en el volumen entre los lectores. Rechaza solo si el volumen es tan alto que la grabaci贸n se interrumpe, o (m谩s com煤nmente) si es tan bajo que no puedes escuchar lo que se dice sin referencia al texto escrito.

Efectos de lectura

La mayor铆a de las grabaciones son de personas que hablan con su voz natural. Puedes aceptar la grabaci贸n ocasional no est谩ndar que se grita, se susurra o, obviamente, se entrega con una voz 鈥渄ram谩tica鈥. Rechaza las grabaciones cantadas y las que usan una voz sintetizada por computadora.

Problemas con el texto escrito.

Consulta Discusi贸n de nuevas pautas para la validaci贸n de oraciones cargadas

驴Todav铆a no est谩s seguro?

Si encuentras algo que estas pautas no cubren, vote de acuerdo a su mejor criterio. Si realmente no puede decidir, use el bot贸n de omisi贸n y contin煤e con la pr贸xima grabaci贸n.

Puedes consultar la version original en el siguiente enlace: Discussion of new guidelines for recording validation

2 Likes

Gracias por la traducci贸n @fernando_ep :slight_smile:

Hola!

Antes que nada gracias por traducir este art铆culo.

Dej茅 una respuesta en otro hilo en la que mencion茅 este FAQ, y cosas que me parece que no est谩n tan bien, y se me ocurri贸 mejor decirlas ac谩 nuevamente as铆 se pueden discutir mejor.

驴Se puede modificar este FAQ para hacerlo un poco m谩s relevante al espa帽ol, o tiene que ser una traducci贸n del de ingl茅s?

Hay un par de cosas que me gustar铆a discutir (y modificar, si les parece).

  • Uso de /s/ al final de una palabra.

    Hay audios en los que quien habla no pronuncia la /s/ al final de una palabra. Creo que la regla original est谩 pensada para descartar audios que hayan sido cortados antes de tiempo, y en ingl茅s puede que tenga m谩s validez. Pero en espa帽ol hay acentos en los que es m谩s frecuente la omisi贸n de una /s/ al final de alguna palabra. Personalmente hablo rioplatense, y hay gente que omite /s/ en el habla normal. En Wikipedia hay un poco m谩s al respecto. Y no s茅 exactamente de d贸nde ser谩 la gente que escucho, pero algunos suenan como de alg煤n lugar de Espa帽a, y a veces tampoco usan /s/ al final.
    Mi principal problema con esto es que en mi experiencia, ese acento es del 鈥渉abla m谩s popular鈥 (Wikipedia), y no me parece bueno crear una base de datos que no represente a gente menos privilegiada.

  • Palabras en ingl茅s

    Esto no s茅 bien c贸mo hacer. Escuchando audios creo que la gente que suena espa帽ola suele leer m谩s literalmente las palabras en ingl茅s, mientras que la gente de acento latinoamericano las lee m谩s en ingl茅s. Sin saber mucho como afecta al producto final, creo que dejar铆a que todas las pronunciaciones 鈥渞azonables鈥 sean v谩lidas. Tambi茅n hay algo de contexto. James Bond y James Rodriguez se escriben igual pero siempre escuch茅 a Bond pronunciado en ingl茅s y a Rodriguez en espa帽ol.

  • Abreviaciones

    Esto es un artefacto creado por el sentence extractor. Hay oraciones que terminan en 鈥淎v.鈥 o 鈥淢r.鈥 o algo as铆 que claramente falta algo en la oraci贸n. La p谩gina de validaci贸n ya tiene un bot贸n para reportar frases por gram谩tica, etc. Creo que estar铆a bueno hablar de reportar frases en este FAQ, y que sea algo bastante principal, no una oraci贸n perdida en el mar de texto.

  • Acentuacion / gram谩tica

    Hay veces que la frase tiene alg煤n error ortogr谩fico y la persona dice la frase en su forma correcta, no en la forma en que est谩 escrita. Por ejemplo: 鈥淛os茅 se caso ayer鈥 es lo que est谩 escrito, pero 鈥淛os茅 se cas贸 ayer鈥 es lo que est谩 dicho en el audio. 驴Qu茅 tendr铆amos que hacer en este caso? Yo creo que reportar铆a las frases por error gramatical/ortogr谩fico, pero creo que es una pregunta que tiene que contestar alguien con bastante m谩s experiencia en el dominio de entrenamiento de estos sistemas. As铆 como un ser humano es capaz de darse cuenta y corregir en el acto tildes faltantes, capaz que tiene valor entrenar un modelo que pueda hacer lo mismo.

  • Frases con errores gramaticales le铆das correctamente

    Estas no son muy comunes, pero debo haber visto 5 o 6 en 500. Frases como 鈥淟os autos y les aviones son grandes鈥 (y la grabaci贸n lee textual lo que est谩 escrito). Esta creo que tambi茅n es una pregunta para alguien que sepa m谩s de reconocimiento de voz y entrenamiento. As铆 como un humano es capaz de darse cuenta de que algo 鈥渘o est谩 bien鈥 sin saber todas las reglas del espa帽ol, puede que se quiera entrenar un modelo que aprenda una gram谩tica a partir de miles de audios. Personalmente las reporto como error gramatical.

Bueno, creo que eso es todo jaja. Gracias por leer!

Gracias por las aportaciones, sin duda debemos mejorar la gu铆a para a帽adir casu铆stica que nos encontramos en espa帽ol :slight_smile:

@fernando_ep 驴puedes editar el primer mensaje y hacerlo wiki para que otros puedan editar? Gracias.