Discussions Common Voice / DeepSpeech en Français

Pour ce qui est de la qualité de l’enregistrement / review et les guidelines, Je mentionne :

Mais en ce qui concerne le lexique de phrases, voir https://discourse.mozilla.org/t/proportion-de-noms-propres-a-consonnance-etrangere/
En bref, je suis aujourd’hui convaincu que le grand drame que Common Voice FR est l’import Wikipedia FR:

  • Quantité massive (Je n’ai plus les chiffres mais 99% des phrases proposées sont issues de Wikipedia et très peu de notre littérature)
  • Pas ou peu de filtrage lors de l’import
  • Pas de traçabilité quant à cet import (qui ? quand ? quoi ? pourquoi ?)
  • Impossibilité de retour en arrière (sauf au cas par cas, ce qui est ridicule lorsqu’on pense que l’import de centaines de milliers de phrases s’est fait sans discussion publique)

À mon avis, cette corruption ontologique du lexique est l’erreur originelle qui nuit et nuira longtemps encore au projet.

Sur une note plus personnelle, le fait d’avoir du sur-argumenter pour simplement retirer des fichiers vides ou corrompus du corpus (ce qui aurait du aller de soi), m’a fait comprendre qu’il était risqué d’investir trop de temps dans cet aspect (pourtant fondamental) du projet.
(https://github.com/common-voice/commonvoice-fr/pull/148)