Rendre valides certains échantillons rejetés

Salut,

Bon, on ne va pas se leurrer, les échantillons féminins sont plutôt rares. Parmi les utilisateurs enregistrés, on a 12% de femmes pour 65% d’hommes. Mais surtout, là où les femmes vont enregistrer quelques dizaines d’échantillons, un certain nombre d’hommes vont en enregistrer des centaines, voir des milliers (pour ne pas dire des dizaines de milliers, pour certains contributeurs hardcore). Il m’arrive donc parfois d’écouter plusieurs centaines d’échantillons masculins avant de tomber enfin sur un échantillon féminin.

Alors, déjà qu’ils sont rares, ça me fend le cœur quand je dois en plus en rejeter certains parce qu’ils ne correspondent pas au texte.

Mais la plupart du temps, bien que ça ne corresponde pas, l’échantillon en lui-même pourrait être valide. L’enregistrement est ok et la contributrice a lu correctement un texte qui aurait pu être juste, si elle n’avait pas ajouté ou remplacé un mot (et c’est d’autant plus dommage quand c’est le texte de base qui posait problème). Par exemple, tout à l’heure je suis tombé sur « La Musée de l’art wallon à Liège conserve plusieurs de ses œuvres ». La personne a lu « Le Musée… ». Ça ne correspond donc pas, sauf que c’est le texte qui contient une erreur.

Maintenant, je ne demande pas de tenter de rattraper tous les échantillons rejetés, ça représenterait beaucoup trop de travail de tout recontrôler / corriger, mais pour les échantillons de voix féminines, qui ne doivent pas être si nombreux, ça pourrait valoir le coup, non ?

C’est très compliqué (techniquement) de corriger ne serait-ce que le texte d’enregistrements déjà passés, on a dû le faire pour des problèmes d’accents.

J’ai du mal à imaginer ce que tu proposes pour corriger : on ne peut pas “rappeler” la personne pour lui demander de ré-enregistrer.

Vu ta description du problème, je pense que le mieux pour le moment c’est de remonter les enregistrements où ça pose un soucis, il y a normalement un bouton “signaler”, et/ou ouvrir un bug sur https://github.com/mozilla/voice-web/issues pour au moins corriger le texte pour les futurs contributrices et contributeurs.

la vraie bonne solution c’est d’arriver à faire participer plus les femmes :), j’ai pas de baguette magique à part insister, mais toute idée est la bienvenue

théoriquement, sur un cas comme ça, c’est rattrapable au niveau de Corpoa Creator qui est l’outil utilisé pour construire une release Common Voice: https://github.com/mozilla/CorporaCreator/blob/master/src/corporacreator/preprocessors/fr.py tu peux modifier, suivant le fichier et/ou le locuteur, le résultat final. Donc si t’es assez motivé, tu peux lister les cas comme ça dans une release, en partant des enregistrement rejetés, et redresser les choses.

Ça me parait faisable et pas forcément chronophage, si tu es motivé, c’est une bonne manière de récupérer un peu de temps de parole féminin et de contribuer :slight_smile:

@Okki En règle générale, il y a un travail de correction des données dans les releases de Common Voice via Corpora Creator qui ne demande qu’à être réalisé :), si tu es motivé pour commencer via le problème que tu pointes, ça serait super !