Textes issus de la Wikipédia anglophone

Cette nuit, je me suis fait une petite séance de validation. Chose étonnante, en une heure, j’ai vu passer un certain nombre de phrases en anglais qui, d’après Google, proviennent de la version anglophone de Wikipédia. Il ne s’agit donc pas de citations qu’on aurait pu trouver sur la version francophone.

Détail étonnant, tous les échantillons semblent avoir été enregistrés par la même contributrice.

Besides the above there are other ruins scattered all over the island.
He has lived variously in Birmingham, France, Los Angeles and currently resides in Wales.
He masterminded the main buildings of Dulwich College in South London.
In addition to Hammond, also Wurlitzer, Farfisa and Estey Organ made electronic chord organs.
Marr treated vision as an information processing system.
The Schweinfurt-Regensburg missions are a famous example.
The song of Central and South American forms is far more variable.

Je les ai signalés comme étant dans une autre langue, mais ça peut peut-être aider à en trouver d’autres ? (j’imagine bêtement une super interface de modération où, à partir d’un texte, on retrouverai la liste des personnes les ayant enregistrés, qui elles-mêmes donneraient accès à toutes leurs contributions, permettant de voir d’un rapide coup d’oeil celles qui ne sont pas en français… mais au final, je sens que lissyx va nous sortir qu’ils n’ont qu’un ou deux scripts Python à utiliser en ligne de commande et que tout est super galère) :disappointed_relieved:

D’ailleurs, quand on fait un signalement, dommage que ça ne parte pas en quarantaine, le temps d’être traité par un éventuel modérateur (il y a bien quelqu’un à l’autre bout ? :smile:), parce que là, à peine signalé, j’y ai souvent de nouveau droit quelques minutes plus tard (désolé si j’ai signalé plusieurs fois le même texte) :grin:

J’ai souvenir qu’il y a eu un soucis comme ça oui, et qu’on avait du code pour détecter ce qui n’était pas du français.

Encore une fois :

  • je ne fait pas partie de l’équipe common voice, donc j’ai pas forcément accès à tout
  • les contributions, notamment techniques, pour identifier et améliorer le jeu de données sont bienvenues
  • mon temps est pas infini, et en ce moment il est encore plus réduit

Tu fais référence aux développeurs, ou il y a des équipes de modérateurs bénévoles pour chaque langue (un peu comme sur Wikipédia) ? :thinking:

Plutôt aux développeurs, oui. Je connais pas la base de code de Common Voice.

Pour animer la communauté, on manque de contributeurs qui s’impliquent, donc c’est pareil des “modérateurs bénévoles” comme sur Wikipedia, il y en a peu.

Si tu veux t’impliquer, tu es plus que bienvenu, évidemment !

bonjour

Désolé pour le retard de réactions (faute de temps).

Si tu veux venir échanger avec nous pour les contributions, nous avons un tchat sur Matrix https://chat.mozilla.org/#/room/#common-voice-fr:mozilla.org Les infos sur Matrix https://github.com/mozfr/besogne/wiki/Matrix

Nous savons que la qualité est importante pour avoir un modèle réutilisable et plus de mondes contribue en nous aidant, plus vite la qualité sera meilleure.

Par ailleurs, si tu peux en parler autour de toi pour leur demander de participer au projet Common Voice (“parler” et “écouter”) pour augmenter la diversité des voix.

Cordialement