Discussions Common Voice / DeepSpeech en Français

drzraf · July 18, 2021, 5:50pm

Pour ce qui est de la qualité de l’enregistrement / review et les guidelines, Je mentionne :

Mais en ce qui concerne le lexique de phrases, voir https://discourse.mozilla.org/t/proportion-de-noms-propres-a-consonnance-etrangere/
En bref, je suis aujourd’hui convaincu que le grand drame que Common Voice FR est l’import Wikipedia FR:

Quantité massive (Je n’ai plus les chiffres mais 99% des phrases proposées sont issues de Wikipedia et très peu de notre littérature)
Pas ou peu de filtrage lors de l’import
Pas de traçabilité quant à cet import (qui ? quand ? quoi ? pourquoi ?)
Impossibilité de retour en arrière (sauf au cas par cas, ce qui est ridicule lorsqu’on pense que l’import de centaines de milliers de phrases s’est fait sans discussion publique)

À mon avis, cette corruption ontologique du lexique est l’erreur originelle qui nuit et nuira longtemps encore au projet.

Sur une note plus personnelle, le fait d’avoir du sur-argumenter pour simplement retirer des fichiers vides ou corrompus du corpus (ce qui aurait du aller de soi), m’a fait comprendre qu’il était risqué d’investir trop de temps dans cet aspect (pourtant fondamental) du projet.
(https://github.com/common-voice/commonvoice-fr/pull/148)

Topic		Replies	Views
[RFC] Critères d'acceptation pour la validation d'enregistrements Français (fr) participation	20	2832	January 8, 2024
Idée de fonctionnalité Français (fr)	3	808	May 22, 2020
Proportion de noms propres à consonnance étrangère Français (fr)	35	2615	September 21, 2022
Trouble du langage et common voice Français (fr)	6	792	October 31, 2019
Phrases agrammaticales Français (fr)	6	2509	August 4, 2020

Discussions Common Voice / DeepSpeech en Français

Related topics