Échantillons identiques validés plusieurs fois par une même personne

Depuis le début du confinement, histoire de passer le temps, j’ai validé un grand nombre d’échantillons. À plusieurs reprises, il m’a semblé réentendre des échantillons que j’avais pourtant déjà validés. Ayant une mémoire de poisson rouge, je m’étais dit que ça devait être un texte identique lu par plusieurs personnes différentes (petite parenthèse, pour signaler que ces derniers jours, j’ai croisé un grand nombre de textes identiques lus par plusieurs personnes, et qu’à deux reprises, j’ai même eu droit à deux échantillons, l’un à la suite de l’autre, d’un texte identique lu par deux personnes différentes, alors qu’il me semblait qu’avec l’extracteur Wikipédia, on avait désormais des millions de phrases en stock…)

Mais retournons à mon histoire. À l’instant, je viens de retomber sur un échantillon refusé cinq minutes plus tôt. Et là, mémoire de poisson rouge ou pas, impossible de me tromper :

« Sa femme, l’imposante Priscilla Wimbush est obsédée par le spiritisme. »

La personne lit bien son texte, aucune erreur. Sauf que deux ou trois secondes après la fin du texte, elle ajoute « après c’est terminé », qui n’était donc pas dans le texte et qui me permet d’identifier clairement cet échantillon.

Je le refuse une deuxième fois, mais ça me fait penser que j’avais peut-être raison, que j’ai peut-être bel et bien validé un certain nombre d’échantillons deux fois (ou plus, sait on jamais), alors que normalement, la validation doit être faite par plusieurs personnes différentes.

Puis j’ai limite envie de dire que le simple fait qu’une personne non enregistrée puisse valider est problématique, puisque sans identifiant, il n’y aura aucun moyen de s’assurer qu’elle ne validera pas plusieurs fois les mêmes échantillons.

D’autant plus qu’il y a beau y avoir une cinquantaine d’heures d’écart entre les enregistrements en français et les échantillons validés, il n’y a aucune randomisation dans la file d’attente. Pire encore, si l’on demande à passer un échantillon, on peut être sûr qu’on y aura de nouveau droit (encore et encore) dans les minutes qui suivent.

Tout ça pour dire que ça ne me rassure pas pour la fiabilité du jeu de données :frowning:

Il faudrait vérifier dans la base de données, tu as d’autres exemples ?
Est-ce que ça semble limité à certaines personnes ?
Je vais essayer de voir si y’a quelque chose de suspect dans la base de données …

J’ai déjà vu des gens / problèmes qui font que les gens uploadent plusieurs fois, ça expliquerait assez bien tout ce que tu décris.

Je ne m’avancerais pas trop là dessus, tu as vérifié ça comment ? Chaque test que j’ai fait de cet ordre là, j’avais biens des comportements différents tant que je faisait ça dans des fenêtre de navigation privées et/ou que je m’assurait de nettoyer les cookies.

Tu as un cas d’utilisation précis en tête ?
Pour le moment, sur toutes les langues que je vois, il y a évidemment des erreurs mais ça se passe bien globalement.

bonjour

le problème de doublons, je l’ai identifié et je pense que j’ai trouvé le doublon.

je m’explique

quand une personne sélectionne parler…

  • 5 phrases sont envoyés en mémoire
  • Si la personne fait “passer” une phrase pour x raisons, une nouvelle phrase est chargé comme remplacement

Je pense que cette nouvelle phrase ne passe pas par le même chemin de distribution et donc elle est de disponible. Ce qui veut dire qu’une autre personne peut là lire.

C’est pour cela qu’une même phrase peut etre lu par 2 personnes différentes.

Il s’agit d’une théorie que je vais remonter à l’équipe pour voir si ma théorie est reproductible.

Mais ce cas là, c’est occasionnel.

cordialement

1 Like

Vous parlez bien d’un même texte, lu par plusieurs personnes différentes ? Parce que ces derniers jours, ce n’est pas un ou deux cas, mais des centaines, que j’ai rencontré (bizarremment, ça ne me le faisait pas, ou clairement pas autant, les semaines précédentes).

Je me suis même demandé si on ne remontait pas dans le temps, au début du projet, quand il n’y avait qu’un lot limité de phrases à lire.

Autre truc marrant, bien que n’ayant rien à voir avec la choucroute, il y a peu, je n’avais quasiment droit qu’à des échantillons enregistrés par des hommes, alors que ces derniers jours, la tendance s’est inversée, je vois passer énormément d’échantillons féminins. Ça me change agréablement :slight_smile:

C’est pas improbable si tu avances beaucoup, c’est censé être le comportement.

J’ajoute qu’un des objectifs forts de cette année pour l’équipe Common Voice (dont je fait pas partie, je précise quand même, même si je fait le lien) c’est justement la qualité des données, donc ce type de retours est utile. Tu es à l’aise avec l’anglais ?

Je remarque ce thread après avoir consulté


Je considère dommageable le fait de réserver une phrase exclusivement à la première personne la dictant, en particulier au cause de l’amplification de la surreprésentation des participants majeurs (et de leur accent spécifique).

Étant donné la multitude d’accents pour le français, Common Voice FR n’a-t-il pas choisi de faire partie des communautés exemptées de la Single Sentence Record Limit ?

c’est un point de vue, mais vu la quantité de texte potentiellement dispo en français, il parait plus efficace pour la qualité des modèles de favoriser une grande diversité de texte plutôt que de concentrer trop d’enregistrements sur certains

2 Likes

Je complète ce post en ajoutant qu’on entend en ce moment souvent des contributions de la même personne (@hellosct1 avec plus de 44000 phrases, soit plus de 110 heures ?). Et que si on veut que le modèle de langue français soit riche et accepte des voix diversifiées, il semblerait plutôt pertinent d’inciter de nombreuses personnes avec des voix variées à participer au projet : femmes (trop peu représentées), jeunes, moins jeunes, avec accents du nord, du sud… Sinon, il y a le risque de “saturer” le modèle avec la même voix qui sera sur-représentée.

Je pense qu’il pourrait même y avoir un quota qui donnerait une alerte pour inciter à contribuer d’une autre manière, soit en aidant d’autres, soit en communiquant autour de ce projet.

Il y a déjà ces protections en place, mais il faut aider à communiquer au mieux au plus large public, c’est la seule façon d’assurer une bonne représentativité.

Si tu as du temps et / ou des compétences pour ça, on est intéressés :blush:

C’est maintenant ce que je tâche de faire, j’arrête de contribuer avec la voix, mais je promeus partout dès que je peux.
https://liberons-nous.cemea.asso.fr/?s=voice
Dernière en date : https://liberons-nous.cemea.asso.fr/2022/07/17/common-voice-bientot-un-modele-abouti/

A la rentrée de septembre, c’est prévu de communiquer dans notre réseau national de 300 salariés + 1500 adhérents.
Donc, ça devrait bouger un peu…

Merci ! Je regarde ces liens demain. techniquement je bosse plus sur deepspeech et donc common voice, mais je continue de porter la parole quand c’est utile, donc hésites pas à me solliciter si t’as besoin d’aide ou pour communiquer autour .