tout ce que j’ai importé, c’est passé https://github.com/common-voice/commonvoice-fr/tree/5699e59244d14bb14d5b7603b91c934b761c9194/CommonVoice-Data/data en fait, c’est simple, ce sont les scripts shell dans https://github.com/common-voice/commonvoice-fr/tree/master/CommonVoice-Data que j’ai fait tourner, donc si y’a pas de wikipedia.sh
c’est que j’ai bricolé et j’ai dû constater que ça faisait plus de mal que de bien et j’ai laissé tombé
le projet common voice a, de son côté, fait des imports de wikipedia, j’ai pas suivi, et je sais juste que c’est avec https://github.com/common-voice/cv-sentence-extractor
c’est bien pour ça que pour les imports français j’ai tenu à :
- avoir des scripts
- avec les paramètres de reproduction
- qui génèrent des données finales dont on a la traçabilité avant ajout
Pour ce qui a été fait via Sentence Collector et l’extracteur mentionné avant, je n’ai pas d’autre bonne solution, et en débattre dans https://discourse.mozilla.org/c/voice/239 est la meilleure façon de faire avancer le problème
Alors il y a eu plusieurs publis sur Common Voice, je les aies pas lues
Les utilisations de ton modèles seront-elles sur un français commun parfait ? Il faut quelque chose utilisable au quotidien.
Ensuite, ne pas oublier que les imports Sentence Collector sont la majorité maintenant, de ce que j’en ai entendu la dernière fois. Ces imports nécessitent aussi d’être validés par plusieurs personnes avant d’être acceptés.
Je dis pas qu’il n’y a pas de curation à faire, bien au contraire cf https://github.com/common-voice/commonvoice-fr/issues mais à l’époque de deepspeech j’ai déjà pas eu le temps de le faire, maintenant que je bosse plus du tout autour de ces thématiques c’est encore pire
Oui et non. Moi le premier certaines tournures d’ancien français c’est pas immédiat, mais :
- c’est pour ça qu’il y a les fonctions signaler / passer, si la personne ne sent pas à l’aise il n’y a aucun soucis à passer
- du point de vue du modèle ça peut être pertinent d’avoir des enregistrements de termes qui ne soient pas en français mais qui peuvent avoir leur place dans une phrase en français
Point important : ça n’est que mon opinion de quelqu’un qui a bossé sur le modèle pour essayer d’en faire un truc qui marche pour de vrai (avec l’aide de gens très sympas de eSup Pod) et même si ça n’a pas été fait dans le cadre d’une publi, j’ai constaté les grosses améliorations apportées par l’augmentation importante du volume de français sur Common Voice.
Mais je veux pas non plus qu’on imagine que c’est « la position officielle du projet Common Voice FR », ça reste mon opinion, et je trouve très important ce travail de curation, parce que j’ai aussi vu passer pas mal de déchets (et pas que dans Common Voice) quand j’ai bossé sur les importeurs dans deepspeech.
Et à la fin, c’est bien ceux qui font le travail d’amélioration comme celui que tu proposes qui décident
Oui, mais c’est quelque chose que j’avais suggéré y’a longtemps, je sais pas si hillary a pu avancer dessus, mais avoir des « profils » et pouvoir identifier des phrases dans certaines catégories permettrait de résoudre ça et améliorer l’utilisation pour les enfants, les personnes pas à l’aise avec le français, en évacuant ces phrases (parce que tout le temps faire « passer » ça peut être pénible à la longue)
Tu as fait un gros travail de catégorisation et de curation, ça serait vraiment triste que ça parte à la poubelle.
Dernier point, tu mentionnes
J’imagine que tu parlais de moi et donc j’insiste, même si je suis toujours salarié, même du temps de DeepSpeech c’était pas mon affectation principale, et même si je pouvais y passer du temps de travail (et des déplacements, pas mal), je n’étais pas dans l’équipe Common Voice. J’ai essayé de faire en sorte que d’autres aussi prennent en charge le projet, et la porte reste très grande ouverte.