EDIT: Traducido al español más abajo.
I downloaded “es_221h_2019-12-10” dataset to train a speech recognition model.
While converting all the clips to .wav using ffmpeg, I found two of them that I can’t even open with any media player. They seem to be broken files.
The clips are:
- clips/common_voice_es_19499893.mp3
- clips/common_voice_es_19499901.mp3
Not sure if the tar itself may be broken as an error on the download process on my side, but then the whole tar may become unreadable, right, not just two files?
Is there a way to check the integrity of the tar archive? I’ve not found an .sfv or anything to check against.
And finally, if have some broken files is relatively common (which I don’t know), is that a problem (in general terms) to train a model? Makes it more error prone, or it’s just “less data” to train?
Thanks in advance.
EDIT: Acabo de ver que el resto de posts de esta categoría están en español , así que traduzaco el post:
---- ESPAÑOL -----
He descargado el conjunto de datos “es_221h_2019-12-10” para entrenar un modelo de reconocimiento de voz.
Mientras convertía todos los clips a .wav usando ffmpeg, encontré dos de ellos que ni siquiera puedo abrir con ningún reproductor de audio.
Los clips lo son:
- clips/common_voice_es_19499893.mp3
- clips/common_voice_es_19499901.mp3
No estoy seguro de si el archivo .tar pudo descargarse corrupto por algún error en la red, pero entonces todo el .tar podría volverse ilegible, ¿no?
¿Hay alguna forma de comprobar la integridad del archivo .tar? No he encontrado nada en la web de common voice.
Y por último, si tener algunos archivos rotos es relativamente común (lo cual no sé), ¿es eso un problema (en términos generales) para entrenar a un modelo? ¿Lo hace más propenso a los errores, o simplemente dispone de “menos datos” para entrenar?
Gracias de antemano.
Un saludo!