Hello,
J’ai repris le Docker précédemment partagé, remis à jour sur la version actuelle de DeepSpeech (v0.9.2), et intégré un nouveau corpus de données partagé par le Ministère des Finances : https://data.economie.gouv.fr/explore/dataset/transcriptionsxml_audiomp3_mefr_ccpmf_2012-2020/
Il a été entraîné avec le Docker disponible https://github.com/Common-Voice/commonvoice-fr/blob/fr-v0.6/DeepSpeech/CONTRIBUTING.md
Vous pouvez le trouver, avec les paramètres d’entraînement, la sortie des tests et les détails sur le volume et les sources de données sur :
Les essais de la part de certains contributeurs montrent une amélioration dans la qualité des transcriptions par rapport à la dernière release 0.5.2 réalisée cet été, grâce à l’ajout des 300h du ministère (champs lexical différent, son provenant de conférences donc dialogues, plus grande variété de genres).