Modèle Français 0.6 pour DeepSpeech v0.7, v0.8, v0.9

Hello,

J’ai repris le Docker précédemment partagé, remis à jour sur la version actuelle de DeepSpeech (v0.9.2), et intégré un nouveau corpus de données partagé par le Ministère des Finances : https://data.economie.gouv.fr/explore/dataset/transcriptionsxml_audiomp3_mefr_ccpmf_2012-2020/

Il a été entraîné avec le Docker disponible https://github.com/Common-Voice/commonvoice-fr/blob/fr-v0.6/DeepSpeech/CONTRIBUTING.md

Vous pouvez le trouver, avec les paramètres d’entraînement, la sortie des tests et les détails sur le volume et les sources de données sur :

Les essais de la part de certains contributeurs montrent une amélioration dans la qualité des transcriptions par rapport à la dernière release 0.5.2 réalisée cet été, grâce à l’ajout des 300h du ministère (champs lexical différent, son provenant de conférences donc dialogues, plus grande variété de genres).

5 Likes

Bonjour @lissyx,

Peut-on utiliser ce modèle pour des fins commerciaux ? comment ça marche par rapport à la Licence malgré que ce soit en Open-Source ?

Merci

Normalement toutes les sources de données utilisées le permettent, et le processus de construction du modèle ne devrait pas engendrer de contamination ; la question est précisée dans https://github.com/common-voice/commonvoice-fr/issues/149

1 Like

Bonjour à tous, je suis nouveau ici.

Je cherchais des modèles FR et je suis tombé ici.
J’ai testé le modèle sur mon projet mais pour le moment, les sous-titres de Youtube sont plus efficace…

Qu’est ce qu’on peut faire pour améliorer les modèles ? Common Voice ?

Bonjour, je rencontre quelques difficultés pour tester le modèle français. Pour le modèle anglais je suis la doc : https://deepspeech.readthedocs.io/en/v0.9.3/USING.html#usage-docs. Dans les packages français (assets téléchargés ici : https://github.com/Common-Voice/commonvoice-fr/releases/tag/fr-v0.6) je ne sais pas où trouver ce qui correspond au deepspeech-0.9.3-models.pbmm et deepspeech-0.9.3-models.scorer à rentrer dans la commande pour le modèle français

https://github.com/common-voice/commonvoice-fr/releases/download/fr-v0.6/model_tensorflow_fr.tar.xz
ou
https://github.com/common-voice/commonvoice-fr/releases/download/fr-v0.6/model_tflite_fr.tar.xz
suivant si c’est tensorflow (.pbmm) ou tflite.

1 Like

Contribuer et rajouter des sources de données ?

Aussi