Modèle Français 0.6 pour DeepSpeech v0.7, v0.8, v0.9

lissyx · December 11, 2020, 8:21am

Hello,

J’ai repris le Docker précédemment partagé, remis à jour sur la version actuelle de DeepSpeech (v0.9.2), et intégré un nouveau corpus de données partagé par le Ministère des Finances : https://data.economie.gouv.fr/explore/dataset/transcriptionsxml_audiomp3_mefr_ccpmf_2012-2020/

Il a été entraîné avec le Docker disponible https://github.com/Common-Voice/commonvoice-fr/blob/fr-v0.6/DeepSpeech/CONTRIBUTING.md

Vous pouvez le trouver, avec les paramètres d’entraînement, la sortie des tests et les détails sur le volume et les sources de données sur :

Les essais de la part de certains contributeurs montrent une amélioration dans la qualité des transcriptions par rapport à la dernière release 0.5.2 réalisée cet été, grâce à l’ajout des 300h du ministère (champs lexical différent, son provenant de conférences donc dialogues, plus grande variété de genres).

kamil_BENTOUNES · March 3, 2021, 8:29am

Bonjour @lissyx,

Peut-on utiliser ce modèle pour des fins commerciaux ? comment ça marche par rapport à la Licence malgré que ce soit en Open-Source ?

Merci

lissyx · March 3, 2021, 8:43am

Normalement toutes les sources de données utilisées le permettent, et le processus de construction du modèle ne devrait pas engendrer de contamination ; la question est précisée dans https://github.com/common-voice/commonvoice-fr/issues/149

Cuntellary_Capybara · March 21, 2021, 12:26am

Bonjour à tous, je suis nouveau ici.

Je cherchais des modèles FR et je suis tombé ici.
J’ai testé le modèle sur mon projet mais pour le moment, les sous-titres de Youtube sont plus efficace…

Qu’est ce qu’on peut faire pour améliorer les modèles ? Common Voice ?

yaj · March 22, 2021, 3:29pm

Bonjour, je rencontre quelques difficultés pour tester le modèle français. Pour le modèle anglais je suis la doc : https://deepspeech.readthedocs.io/en/v0.9.3/USING.html#usage-docs. Dans les packages français (assets téléchargés ici : https://github.com/Common-Voice/commonvoice-fr/releases/tag/fr-v0.6) je ne sais pas où trouver ce qui correspond au deepspeech-0.9.3-models.pbmm et deepspeech-0.9.3-models.scorer à rentrer dans la commande pour le modèle français

lissyx · March 22, 2021, 4:03pm

https://github.com/common-voice/commonvoice-fr/releases/download/fr-v0.6/model_tensorflow_fr.tar.xz
ou
https://github.com/common-voice/commonvoice-fr/releases/download/fr-v0.6/model_tflite_fr.tar.xz
suivant si c’est tensorflow (.pbmm) ou tflite.

lissyx · March 22, 2021, 4:04pm

Contribuer et rajouter des sources de données ?

Aussi

nandre7 · June 28, 2021, 2:12pm

Bonjour avec tensorflow j’obtiens l’erreur suivante :

Loading scorer from files model_tensorflow_fr/kenlm.scorer

Error: Can’t parse scorer file, invalid header. Try updating your scorer file.$

Est-ce que je l’utilise correctement ?

TensorFlow: v2.3.0-6-g23ad988fcd

DeepSpeech: v0.9.3-0-gf2e9c858

lissyx · June 29, 2021, 4:40pm

Sans plus d’information, difficile à dire. Vu l’erreur, ça sent le fichier incorrect, ou incompatible, mais la version de deepspeech est bonne apparemment.

nandre7 · June 29, 2021, 4:46pm

C’est sans doute là que je dois faire une erreur, le fichier “scorer file” model_tensorflow_fr/kenlm.scorer est importé depuis Release Modèle Français 0.6 · common-voice/commonvoice-fr il ne devrait être bon non ?

lissyx · July 5, 2021, 8:11am

Ça devrait, et ça marche pour plein de gens

Topic		Replies	Views
Modèle français 0.4 pour DeepSpeech v0.6 Français (fr)	5	5581	March 29, 2021
Un premier modèle français Français (fr)	30	4740	August 26, 2019
Modèle français 0.2 pour DeepSpeech v0.6 Français (fr)	0	976	September 25, 2019
Modèle français 0.3.4 pour DeepSpeech v0.6 Français (fr)	3	4237	December 6, 2019
Entraîner des modèles sur-mesure avec commonvoice-fr Français (fr)	8	1544	March 5, 2023

Modèle Français 0.6 pour DeepSpeech v0.7, v0.8, v0.9

Related topics