J’ai réussi à obtenir un premier modèle assez fonctionnel pour pouvoir effectuer des démos. Il a été entraîné avec le Docker disponible https://github.com/Common-Voice/commonvoice-fr/blob/master/DeepSpeech/CONTRIBUTING.md
- entraîné par dessus le checkpoint du modèle 0.5.0
- importation de LinguaLibre, TrainingSpeech et Common Voice, avec mode compatible anglais
Avant de mettre à disposition, je vais continuer quelques vérifications, et m’assurer que le nécessaire est disponible dans les dépôts pour que ce soit reproductible.
Le modèle a été testé sur Android notamment. Côté qualité, il ne faut pas attendre un truc parfait. Le WER en fin d’entraînement est > 95%, et le CER au delà de 55%.
Le modèle de langue, construit à partir de Wikipedia, nécessite encore un peu de travail (je dois le regénérer avec un alphabet compatible avec l’anglais).
Il est aussi nécessaire d’articuler correctement et avec un volume sonore suffisant, sans aller trop vite.
Attention, ce premier modèle a été entraîné sans language model, si vous faites des essais avec les résultats seront incohérents.
EDIT: DeepSpeech v0.5.0 et ses checkpoints sont disponibles, j’ai donc validé la PR qui permet de faire du transfer-learning depuis l’anglais. Je suis encore en train de faire tourner un entraînement, je compte partager les modèles exportés + checkpoints d’ici peu.