Discussions Common Voice / DeepSpeech en Français

Bonjour,
Je voudrais faire de la transcription audio dans le cadre de la gestion de crise ( par exemples catastrophes naturelles). Dans ce contexte, on utilise souvent des acronymes, par exemple le nom des routes (l’autoroute A6, la RN98 etc…)
J’utilise deepspeech et le modèle fr de common voice (v0.6) que je fais tourner avec mic_vad_streaming.
Cela fonctionne très bien sur windows et linux. La vad fonctionne je transcris correctement l’ensemble des phrases simples (sans entités nommées)
J’aimerai justement retranscrire des entités nommées comme des noms de rue, de bâtiments, et les acronymes.
Comment puis-je résoudre ce problème (: retranscrire des entités nommés et des acronymes) ?
Pour le moment j’ai écarté l’option d’entrainer mon propre modèle car je n’ai pas les ressources nécessaires (data, temps et moyens techniques) et je cherche d’autres solutions (si il en existe).

Merci bien

tu pourrais essayer d’augmenter le scorer avec tes données: https://mozilla.github.io/deepspeech-playbook/SCORER.html

et/ou potentiellement d’exploiter l’API HotWords: https://deepspeech.readthedocs.io/en/master/C-API.html#_CPPv413DS_AddHotWordP10ModelStatePKcf

Je partage tout à fait cet avis. Est-ce que l’équipe a avancé depuis 2019 sur ce thème?

Bonjour,
Je suis nouvelle venue sur common voice depuis environ une semaine. J’ai enregistré plus de 5000 clips et en ai écouté plus de 3000. C’est sans doute peu par rapport à nombre d’entre vous mais cela fait tout de même que je remarque quelques faiblesses dans les phrases proposées :

  • elles semblent souvent traduites de l’anglais/américain et la syntaxe est celle de ces langues et donc “bancale” en français ; exemple : une/des chose/s existe/ent au lieu de il y a ceci, cela ; ou bien : on dénombre telles choses (je ne suis pas sûre d’être tout à fait claire…)
  • les fautes de grammaire et d’orthographe sont de ce fait fréquentes
  • l’omission de dates, noms de lieux, mesures, superficie, distances, etc, sont légion ; pourquoi ?
    Je signale toujours ces lacunes.
    D’autre part, au vu du nombre de clips enregistrés avec un son déplorable ou une lecture impropre, ne serait-il pas judicieux de signaler au contributeur de toujours écouter ses 5 enregistrements, voire de les réenregistrer avant de les soumettre ? Cela économiserait un temps précieux à qui se donne la peine d’écouter/valider/invalider.
    Pardon de ne pas nommer directement la personne (je ne m’en souviens pas) qui a fait remarquer que certains contributeurs ne respectent pas les liaisons ; à mon avis, elles sont importantes car elles permettent notamment une compréhension plus précise de la phrase, de mieux apprécier l’orthographe, de renseigner sur le sujet (singulier ou pluriel), le verbe conjugué et les accords.

Je participe avec plaisir bien que de façon limitée car je suis nulle en informatique.
Bonne journée !

1 Like

Bonjour Catherine :slightly_smiling_face:

Tout d’abord, merci pour ton énorme participation :+1:

Les phrases en français proviennent majoritairement de Wikipédia, projet d’encyclopédie libre auquel n’importe qui peut contribuer. Ce qui explique la présence de fautes d’orthographe ou de phrases parfois bizarrement formulées.

Les nombres et les dates ont volontairement été supprimés, puisque ils pouvaient être lus de différentes façons. 90 sera lu quatre-vingt-dix par les Français mais nonante par les Belges. 1825 sera lu parfois mille huit cent vingt-cinq, mais parfois dix-huit cent vingt-cinq.

En ce qui me concerne, ça aura été une grosse erreur de les supprimer bêtement et simplement, plutôt que de les remplacer par leur version textuelle (il existe pourtant un programme pour ça). Mais on peut malheureusement difficilement revenir en arrière.

Sinon oui, je suis également d’accord que ça serait plus judicieux de prodilguer quelques conseils aux nouveaux contributeurs, plutôt que de les jeter directement dans le bain. Mettre plus en avant la présence du bouton Passer, histoire de passer une phrase qui ne nous plaît pas (ce que je fais systématiquement quand il y a des noms propres en islandais ou de je ne sais quel autre pays dont je n’ai strictement aucune idée de la prononciation), mettre en avant les Critères d’acceptation pour la validation d’enregistrements, qui sont pour le moment perdus sur le Discourse sur lequel peu de monde doit se rendre…

Pour la qualité des enregistrements, c’est un sujet qui revient souvent. Perso j’avais réécouté absolument tous mes enregistrements, mais j’imagine que ça sera trop lourd pour certains. Ça serait donc pas mal qu’il y ait au moins un outil de calibration / validation lors de la toute première participation, histoire de contrôler la qualité, le volume…

2 Likes

Merci okki, vu qu’il y a du mouvement côté common voice avec l’arrivée d’une community manager, peut-être qu’on peut revenir sur ce guide, ça fait partie des choses que j’ai évoqué avec elle.

1 Like

Bonjour Okki, et merci beaucoup pour ta réponse !

Pour ce qui concerne les phrases que je trouve plutôt mal traduites, je suis victime de déformation professionnelle : je traduis de l’anglais-allemand-italien-espagnol vers le français ; alors forcément, je suis un peu tatillonne. Faut pas m’en vouloir :wink:

Je suis 100% de ton avis quant aux dates : les écrire en toutes lettres résoudrait le problème, même dans le cas de nonante ou quatre-vingt dix puisque le contributeur peut spécifier dans son profil quel français est celui qu’il parle (de France, de Suisse, du Québec, etc ). Sans revenir en arrière, ne pourrait-on pas appliquer la version textuelle aux nouvelles entrées ?

Comme toi, j’écoute tous mes enregistrements et il m’arrive fréquemment de les réenregistrer, soit parce que je n’ai pas articulé assez clairement, soit que le ton ne sied pas, soit qu’on entend en bruit de fond le cui-cui des oiseaux et qu’il me faut fermer la fenêtre. Tu dis que c’est peut-être trop pesant pour certains mais j’insiste : ça allègerait la tâche de ceux qui écoutent pour valider/invalider !

Allez, je vais en faire quelques uns.
Bonne journée et bon week-end !

PS: je n’arrive pas à insérer d’emoji ; il me sort la correspondance textuelle en anglais comme p.ex. smile, wink, etc : normal ? (je l’avais bien dit : nulle en informatique :-/ )

Comme toi, j’écoute tous mes enregistrements et il m’arrive fréquemment de les réenregistrer, soit parce que je n’ai pas articulé assez clairement, soit que le ton ne sied pas, soit qu’on entend en bruit de fond le cui-cui des oiseaux et qu’il me faut fermer la fenêtre.

C’est vraiment dommage que des spécialistes en reconnaissance vocale, par exemple ceux en charge de DeepSpeech, n’aient pas indiqué clairement ce qui était acceptable ou non.

Mais de ce que j’ai compris des différentes lectures que j’ai pu faire sur le sujet, il ne faut pas non plus chercher à produire des enregistrements parfaits, comme si on créait un livre audio de qualité professionnelle.

Le but visé, c’est tout de même de produire un modèle capable de retranscrire avec le moins d’erreur possible, n’importe quelle personne, peu importe son genre, son âge, son accent… et ce, dans toutes les conditions possibles. Donc, aussi bien une personne seule dans une pièce sans le moindre bruit, qu’une personne en extérieur avec le chant assourdissant des cigales ou utilisant un téléphone de mauvaise qualité. Et que la personne soit un bon orateur ou qu’elle soit timide, hésitante, handicapée, âgée avec du mal à s’exprimer…

Et comme chaque personne est différente, que ce soit en lisant un livre ou lors d’une discussion, certains auront une diction parfaite, prononceront bien les liaisons… quand d’autres auront bien du mal à se faire comprendre oralement. Et pourtant, il faudra bien que le logiciel soit un jour capable de comprendre tout le monde.

Dans le cas des liaisons, par exemple, tant que ça n’induit pas en erreur, j’essaie de ne pas être trop sévère (mais peut être que j’ai tort :thinking:).

Et c’est bien pour ça que j’aurais clairement préféré qu’on ait dès le départ un guide officiel, parce que là, tout le monde fait un peu ce qu’il veut, en étant plus ou moins strict. Et avec seulement deux validations, je me pose souvent la question de la qualité des échantillons acceptés à l’arrivée.

Pour le stock de phrases restantes ou les signalements, j’imagine qu’on peut contribuer, mais je n’ai aucune idée où ça se trouve et vais donc laisser lissyx nous en parler :grin:

Et pour les émojis, ça insert la version textuelle dans la boîte de saisie, mais normalement, ça s’affiche correctement dans la prévisualisation sur la droite, et quand tu postes ton message.

D’accord, attendons ce qu’en dit Lissyx !
En effet, j’ai remarqué que l’émoji apparaissait à l’envoi ; trop tard pour corriger mon message ; désolée.
À + :smile:

Pour ce qui est de la qualité de l’enregistrement / review et les guidelines, Je mentionne :

Mais en ce qui concerne le lexique de phrases, voir https://discourse.mozilla.org/t/proportion-de-noms-propres-a-consonnance-etrangere/
En bref, je suis aujourd’hui convaincu que le grand drame que Common Voice FR est l’import Wikipedia FR:

  • Quantité massive (Je n’ai plus les chiffres mais 99% des phrases proposées sont issues de Wikipedia et très peu de notre littérature)
  • Pas ou peu de filtrage lors de l’import
  • Pas de traçabilité quant à cet import (qui ? quand ? quoi ? pourquoi ?)
  • Impossibilité de retour en arrière (sauf au cas par cas, ce qui est ridicule lorsqu’on pense que l’import de centaines de milliers de phrases s’est fait sans discussion publique)

À mon avis, cette corruption ontologique du lexique est l’erreur originelle qui nuit et nuira longtemps encore au projet.

Sur une note plus personnelle, le fait d’avoir du sur-argumenter pour simplement retirer des fichiers vides ou corrompus du corpus (ce qui aurait du aller de soi), m’a fait comprendre qu’il était risqué d’investir trop de temps dans cet aspect (pourtant fondamental) du projet.
(https://github.com/common-voice/commonvoice-fr/pull/148)

L’implication de plus de contributeurs est pourtant vraiment très importante pour pouvoir suivre de genre de choses. Désolé d’avoir donné l’impression d’être pénible sur cette histoire de fichiers vides,mais résultants de l’exécution de l’outil d’importation je n’aime pas trop ces corrections après coup plutôt que de corriger l’outil directement.

Pour l’import Wikipedia, je n’ai pas trop regardé quand ça a été réalisé, si j’avais eu le temps j’aurais insisté sur la transformation des chiffres en toutes lettres, comme je l’ai fait dans les autres outils.

Même si ça peut choquer quand on lit, c’est pas très très important, au final, on dépend plus de la diversité des élocutions.

Je réitère la proposition d’aider ceux qui le veulent à s’impliquer plus, il y a maintenant une personne en charge du community management, elle serait ravie d’avoir vos idées, je vais déjà essayer de lui synthétiser ce qui a été dit ces derniers jours.

La grosse contrainte si certains veulent s’impliquer c’est d’être capable de s’exprimer en anglais pour échanger avec ces équipes.

Au contraire, au risque de me répéter et de froisser les personnes qui aiment le beau français, il faut reconnaître que souvent les liaisons ne sont pas respectées au quotidien, donc c’est important que cela soit aussi présent dans le jeu de données.

Je vais remonter le tien à Hillary :slight_smile:

C’est à faire lors des soumissions de données. Comme Okki l’a expliqué, l’import Wikipedia a été massif et sans ce traitement, donc on va se traîner ça un moment, et c’est difficile à corriger après coup. Si quelqu’un se sent se corriger l’importeur Wikipedia, je peux voir si on peut annuler toutes les phrases non déjà enregistrées et refaire un import ?

Le code est là: https://github.com/common-voice/cv-sentence-extractor

Faut pas s’inquiéter, on a tous nos biais :).

FTR: Discussion of new guidelines for recording validation

Merci okki et lissyx pour vos bons conseils !
Les new guidelines for recording sont très utiles ; une version en français serait utile pour les contributeurs francophones qui ne parlent pas anglais (ils existent). C’est peut-être seulement moi qui ne la trouve pas…
Je suis allée voir https://github.com/common-voice/cv-sentence-extractor mais ça c’est malheureusement bien au-delà de mes capacités.
Je vais donc m’en tenir à ce que je suis capable de faire : lire, enregistrer, écouter, valider/invalider selon les new guidelines :wink:
Bonne journée !

bien sûr, mais je pense que celles d’@okki seront très bien également, j’imagine que pour la communauté francophone c’est celles qui seront utilisées.

Oui ! Et aussi en parler un maximum autour de soi. Ne jamais oublier qu’on a pas besoin que chaque personne s’enregistre pendant des heures et des heures, on estime que 250 clips de 5 secondes par personnes ça suffit, par contre il y a toujours besoin d’aide pour valider l’audio, pour valider et proposer du texte sur Sentence Collector: https://commonvoice.mozilla.org/sentence-collector/#/review ; et plus les voix qui s’enregistrent sont diverses, mieux ça sera.