馃摃 Gu铆a para validaci贸n de grabaciones en common voice

PROYECTO DE DIRECTRICES PARA REVISAR GRABACIONES

Problemas con la grabaci贸n.

Malentendidos

Se debe verificar con mucho cuidado que lo que se ha grabado es exactamente lo que se ha escrito; rechaza si hay incluso errores menores. Los errores m谩s comunes son:

  • P茅rdida de 鈥楿n, Uno, La, Los鈥 al comienzo de la grabaci贸n.
  • Falta una 鈥楽鈥 al final de una palabra.
  • Perder el final de la 煤ltima palabra cortando la grabaci贸n demasiado r谩pido.
  • Tomando varios intentos de leer una palabra.

Por ejemplo:

  • : white_check_mark: Los carros viajan por la carretera.
  • :X:Carros viajan por la carretera.
    [鈥楲os鈥 omitido]
  • :X:Los carro viajan por la carretera.
    [Deber铆an ser 鈥榗arros鈥橾
  • :X:Los carros viajan por la carretera.Cuando
    [Grabaci贸n es cortada antes del final de la 煤ltima palabra]
  • :X:Los carros viajan por la carretera-nueva.
  • [Se ha registrado m谩s que el texto requerido]
  • [El primer 鈥榥ueva-鈥 no est谩 en el texto escrito]

Pronunciaciones variadas

Ten cuidado antes de rechazar un clip sobre la base donde el lector ha pronunciado mal una palabra, ha puesto el enfoque en el lugar equivocado o aparentemente ha ignorado un signo de interrogaci贸n. Hay una gran variedad de pronunciaciones en uso en todo el mundo, algunas de las cuales tal vez no haya escuchado en su comunidad local. Proporciona un margen de apreciaci贸n para aquellos que pueden hablar de manera diferente a ti.

Por otro lado, si cree que el lector probablemente nunca se ha cruzado con la palabra antes, y simplemente est谩 haciendo una suposici贸n incorrecta sobre la pronunciaci贸n, rechaza. Si no estas seguro, usa el bot贸n de omisi贸n.

Ruido de fondo

Queremos que los algoritmos de aprendizaje autom谩tico puedan manejar una variedad de ruido de fondo, e incluso se pueden aceptar ruidos relativamente altos siempre que no impidan que escuche la totalidad del texto. La m煤sica de fondo tranquila est谩 bien; m煤sica lo suficientemente alta como para evitar que escuches todas y cada una de las palabras no.

  • : white_check_mark: {Estornudar} Los dinosaurios gigantes del Tri谩sico {tos}.
  • :X:El gigante dino {tos} el Tri谩sico.
    [Parte del texto no se puede escuchar]

Si la grabaci贸n se interrumpe o tiene crujidos, rechace a menos que se pueda escuchar la totalidad del texto:

  • :X:{Crackle} dinosaurios gigantes de {crackle} -riassic.
    [Parte del texto no se puede escuchar]

Voces de fondo

Un ruido de fondo silencioso est谩 bien, pero no queremos voces adicionales que puedan hacer que un algoritmo identifique palabras que no est谩n en escritas en el texto. Si puedes escuchar palabras distintas aparte de las del texto, el clip debe ser rechazado. Por lo general, esto sucede donde se ha dejado encendida la TV, o donde hay una conversaci贸n cerca.

  • :X:Los dinosaurios gigantes del Tri谩sico. [le铆do por una sola voz] 驴Vienes? [llamado por otro]

Volumen

Habr谩 variaciones naturales en el volumen entre los lectores. Rechaza solo si el volumen es tan alto que la grabaci贸n se interrumpe, o (m谩s com煤nmente) si es tan bajo que no puedes escuchar lo que se dice sin referencia al texto escrito.

Efectos de lectura

La mayor铆a de las grabaciones son de personas que hablan con su voz natural. Puedes aceptar la grabaci贸n ocasional no est谩ndar que se grita, se susurra o, obviamente, se entrega con una voz 鈥渄ram谩tica鈥. Rechaza las grabaciones cantadas y las que usan una voz sintetizada por computadora.

Problemas con el texto escrito.

Consulta Discusi贸n de nuevas pautas para la validaci贸n de oraciones cargadas

驴Todav铆a no est谩s seguro?

Si encuentras algo que estas pautas no cubren, vote de acuerdo a su mejor criterio. Si realmente no puede decidir, use el bot贸n de omisi贸n y contin煤e con la pr贸xima grabaci贸n.

Puedes consultar la version original en el siguiente enlace: Discussion of new guidelines for recording validation

2 Likes

Gracias por la traducci贸n @fernando_ep :slight_smile: