Depuis le début du confinement, histoire de passer le temps, j’ai validé un grand nombre d’échantillons. À plusieurs reprises, il m’a semblé réentendre des échantillons que j’avais pourtant déjà validés. Ayant une mémoire de poisson rouge, je m’étais dit que ça devait être un texte identique lu par plusieurs personnes différentes (petite parenthèse, pour signaler que ces derniers jours, j’ai croisé un grand nombre de textes identiques lus par plusieurs personnes, et qu’à deux reprises, j’ai même eu droit à deux échantillons, l’un à la suite de l’autre, d’un texte identique lu par deux personnes différentes, alors qu’il me semblait qu’avec l’extracteur Wikipédia, on avait désormais des millions de phrases en stock…)
Mais retournons à mon histoire. À l’instant, je viens de retomber sur un échantillon refusé cinq minutes plus tôt. Et là, mémoire de poisson rouge ou pas, impossible de me tromper :
« Sa femme, l’imposante Priscilla Wimbush est obsédée par le spiritisme. »
La personne lit bien son texte, aucune erreur. Sauf que deux ou trois secondes après la fin du texte, elle ajoute « après c’est terminé », qui n’était donc pas dans le texte et qui me permet d’identifier clairement cet échantillon.
Je le refuse une deuxième fois, mais ça me fait penser que j’avais peut-être raison, que j’ai peut-être bel et bien validé un certain nombre d’échantillons deux fois (ou plus, sait on jamais), alors que normalement, la validation doit être faite par plusieurs personnes différentes.
Puis j’ai limite envie de dire que le simple fait qu’une personne non enregistrée puisse valider est problématique, puisque sans identifiant, il n’y aura aucun moyen de s’assurer qu’elle ne validera pas plusieurs fois les mêmes échantillons.
D’autant plus qu’il y a beau y avoir une cinquantaine d’heures d’écart entre les enregistrements en français et les échantillons validés, il n’y a aucune randomisation dans la file d’attente. Pire encore, si l’on demande à passer un échantillon, on peut être sûr qu’on y aura de nouveau droit (encore et encore) dans les minutes qui suivent.
Tout ça pour dire que ça ne me rassure pas pour la fiabilité du jeu de données