Spanish Common Voice Dataset may contain two broken mp3 clips

EDIT: Traducido al español más abajo.

I downloaded “es_221h_2019-12-10” dataset to train a speech recognition model.

While converting all the clips to .wav using ffmpeg, I found two of them that I can’t even open with any media player. They seem to be broken files.

The clips are:

  • clips/common_voice_es_19499893.mp3
  • clips/common_voice_es_19499901.mp3

Not sure if the tar itself may be broken as an error on the download process on my side, but then the whole tar may become unreadable, right, not just two files?

Is there a way to check the integrity of the tar archive? I’ve not found an .sfv or anything to check against.

And finally, if have some broken files is relatively common (which I don’t know), is that a problem (in general terms) to train a model? Makes it more error prone, or it’s just “less data” to train?

Thanks in advance.

EDIT: Acabo de ver que el resto de posts de esta categoría están en español :rofl:, así que traduzaco el post:

---- ESPAÑOL -----

He descargado el conjunto de datos “es_221h_2019-12-10” para entrenar un modelo de reconocimiento de voz.

Mientras convertía todos los clips a .wav usando ffmpeg, encontré dos de ellos que ni siquiera puedo abrir con ningún reproductor de audio.

Los clips lo son:

  • clips/common_voice_es_19499893.mp3
  • clips/common_voice_es_19499901.mp3

No estoy seguro de si el archivo .tar pudo descargarse corrupto por algún error en la red, pero entonces todo el .tar podría volverse ilegible, ¿no?

¿Hay alguna forma de comprobar la integridad del archivo .tar? No he encontrado nada en la web de common voice.

Y por último, si tener algunos archivos rotos es relativamente común (lo cual no sé), ¿es eso un problema (en términos generales) para entrenar a un modelo? ¿Lo hace más propenso a los errores, o simplemente dispone de “menos datos” para entrenar?

Gracias de antemano.
Un saludo!

Hola,

Dos archivos del total no parece algo muy problemático, ¿el mp3 original está vacíos o simplemente no válidos?

En todo caso, voy a consultar el tema de comprobar la integridad que sin duda es algo interesante.

Un saludo.

Hola @nukeador, muchas gracias por responder.

Ambos archivos dan error al intentar reproducirlos. Pero, ahora que lo dices, he consultado el peso de ambos archivos y pesan 0 bytes, por lo que seguramente mi copia del archivo tar estará corrupta.

Intentaré volver a descargarlo, (ya que descargar el dataset de español no es muy problemático por su peso, pero con el dataset en ingles también me ha pasado). Sería interesante poder tener un archivo para comprobar la integridad de todo el dataset.

Mencionar que he descomprido el dataset usando la última versión de 7-Zip (bajo Windows 10 x64 ver. 1909).

Si me da muchos problemas, tal vez pruebe con Ubuntu.

Un saludo!

Parece que actualmente no publicamos checksums, pero los devs me ha dicho que lo considerarán. ¿Puedes subir los dos archivos que dan problemas para que podamos comprobar si en el original están así?

Parece que al ser ficheros completamente vacíos, ni siquiera pueden subirse a Firefox Send (Puedo elegirlos/arrastrarlos, pero no se añaden a la lista).

He probado con ficheros normales, y con esos sí que funciona.
Os dejo una captura de los clips en mi explorador.

Son ficheros de 0 bytes, por lo que no contienen absolutamente nada.

OK, pregunto a ver sobre esos dos archivos.

Al parecer sí que hay alguna discrepancia con los tamaños de los archivos (esto es, no es problema de tu descarga), creo que has descubierto algo que tenemos que solucionar para la siguiente versión del dataset :+1:

Ok, me alegra saber que no es cosa mía, y por ende, estoy contribuyendo a mejorar el dataset! :muscle:

Por si sirve de algo, estoy haciendo la misma conversión sobre el dataset en ingles (
en_1488h_2019-12-10), y aunque es un proceso lento, ya he descubierto algunos archivos que podrían tener el mismo problema.

El dataset en ingles contiene 1.300.315 de clips de audio, de los cuales llevo procesados unos 325.000 en este momento, y entre los procesados han aparecido 54 ficheros que presentan errores, aún faltaría ver si es el mismo caso pero todo apunta a que sí.

Creo que mi script terminará de procesar todos los clips del dataset en las proximas 24h / 30h aprox.

Cuando termine, voy a postear una lista de los ficheros afectados junto con su peso, por si os es de utilidad.

Por último, ¿no existe un repo público (¿en GitHub?) donde podamos contribuir los usuarios a mejorar el tooling interno que procesa el dataset?

He estado a punto de postear todo esto como un issue en https://github.com/mozilla/voice-web en lugar de aquí, pero vi que el repo estaba más relacionado con la web en sí que con el dataset.

No se si existe tal repo, pero podría ser interesante para contribuir, por ejemplo, el script de conversión .mp3 a .wav que estoy usando (en python en este caso), o mejor, elaborar un sistema de tests unitarios que aseguren que todos los clips son válidos y cumplen ciertos parámetros. Podría usarse junto a la validación manual que ya existe.

Un saludo! :wave::wave:

La herramienta que usamos es: