Un premier modèle français

lissyx · June 3, 2019, 12:44pm

J’ai réussi à obtenir un premier modèle assez fonctionnel pour pouvoir effectuer des démos. Il a été entraîné avec le Docker disponible https://github.com/Common-Voice/commonvoice-fr/blob/master/DeepSpeech/CONTRIBUTING.md

entraîné par dessus le checkpoint du modèle 0.5.0
importation de LinguaLibre, TrainingSpeech et Common Voice, avec mode compatible anglais

Avant de mettre à disposition, je vais continuer quelques vérifications, et m’assurer que le nécessaire est disponible dans les dépôts pour que ce soit reproductible.

Le modèle a été testé sur Android notamment. Côté qualité, il ne faut pas attendre un truc parfait. Le WER en fin d’entraînement est > 95%, et le CER au delà de 55%.

~~Le modèle de langue, construit à partir de Wikipedia, nécessite encore un peu de travail (je dois le regénérer avec un alphabet compatible avec l’anglais).~~

Il est aussi nécessaire d’articuler correctement et avec un volume sonore suffisant, sans aller trop vite.

Attention, ce premier modèle a été entraîné sans language model, si vous faites des essais avec les résultats seront incohérents.

EDIT: DeepSpeech v0.5.0 et ses checkpoints sont disponibles, j’ai donc validé la PR qui permet de faire du transfer-learning depuis l’anglais. Je suis encore en train de faire tourner un entraînement, je compte partager les modèles exportés + checkpoints d’ici peu.

lissyx · June 3, 2019, 12:56pm

belkacem77 · June 3, 2019, 4:20pm

C’est encourageant alors. Bravo.
En attendant notre modèle aussi.

lissyx · June 6, 2019, 10:57am

Merci, j’ai plus ou moins terminé https://github.com/Common-Voice/commonvoice-fr/pull/44, mais j’ai encore des essais à faire pour vérifier que j’obtiens bien le même résultat. Pour le moment, c’est construit à partir d’une branche de mon fork de DeepSpeech, je cherche une façon de faire le filtrage validate_label_fr qui soit souple et facile à modifier.

lissyx · June 6, 2019, 7:10pm

Il y a encore un comportement d’entraînement inadapté, que j’avais résolu l’autre fois : le loss augmente. J’ai peut d’avoir un petit bug qui traîne dans l’importation des données.

+ python -u DeepSpeech.py --alphabet_config_path /mnt/models/alphabet.txt --lm_binary_path /mnt/lm/lm.binary --lm_trie_path /mnt/lm/trie --feature_cache /mnt/sources/feature_cache --train_files /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_train.csv,/mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_train.csv,/mnt/extracted/data/cv-fr/clips/train.csv --dev_files /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_dev.csv,/mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_dev.csv,/mnt/extracted/data/cv-fr/clips/dev.csv --test_files /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_test.csv,/mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_test.csv,/mnt/extracted/data/cv-fr/clips/test.csv --train_batch_size 68 --dev_batch_size 68 --test_batch_size 68 --n_hidden 2048 --epochs 100 --learning_rate 0.000001 --dropout_rate 0.30 --lm_alpha 0.0 --lm_beta 0.0 --noearly_stop --display_step 0 --validation_step 1 --checkpoint_step 1 --checkpoint_dir /mnt/checkpoints/ --export_dir /mnt/models/ --export_language fra                                                                                                                                        
WARNING:tensorflow:From /home/trainer/ds-train-fr/lib/python3.6/site-packages/tensorflow/python/data/ops/dataset_ops.py:429: py_func (from tensorflow.python.ops.script_ops) is deprecated and will be removed in a future version.                                                                                                                                                                            
Instructions for updating:                                                                                                                                                                                                                                                                                                                                                                                     
tf.py_func is deprecated in TF V2. Instead, use                                                                                                                                                                                                                                                                                                                                                                
    tf.py_function, which takes a python function which manipulates tf eager                                                                                                                                                                                                                                                                                                                                   
    tensors instead of numpy arrays. It's easy to convert a tf eager tensor to                                                                                                                                                                                                                                                                                                                                 
    an ndarray (just call tensor.numpy()) but having access to eager tensors                                                                                                                                                                                                                                                                                                                                   
    means `tf.py_function`s can use accelerators such as GPUs as well as                                                                                                                                                                                                                                                                                                                                       
    being differentiable using a gradient tape.                                                                                                                                                                                                                                                                                                                                                                
                                                                                                                                                                                                                                                                                                                                                                                                               
WARNING:tensorflow:From /home/trainer/ds-train-fr/lib/python3.6/site-packages/tensorflow/python/data/ops/iterator_ops.py:358: colocate_with (from tensorflow.python.framework.ops) is deprecated and will be removed in a future version.
Instructions for updating:                                                     
Colocations handled automatically by placer.                                   
WARNING:tensorflow:From /home/trainer/ds-train-fr/lib/python3.6/site-packages/tensorflow/contrib/rnn/python/ops/lstm_ops.py:696: to_int64 (from tensorflow.python.ops.math_ops) is deprecated and will be removed in a future version.
Instructions for updating:                                                     
Use tf.cast instead.                                                           
WARNING:tensorflow:From /home/trainer/ds-train-fr/lib/python3.6/site-packages/tensorflow/python/training/saver.py:1266: checkpoint_exists (from tensorflow.python.training.checkpoint_management) is deprecated and will be removed in a future version.
Instructions for updating:                                                     
Use standard file APIs to check for files with this prefix.        
I Restored variables from most recent checkpoint at /mnt/checkpoints/best_dev-585277, step 585277                                                                                                                                        
I STARTING Optimization                                                                                                                                                                         
Epoch 0 |   Training | Elapsed Time: 0:15:33 | Steps: 1120 | Loss: 198.901285  
Epoch 0 | Validation | Elapsed Time: 0:00:02 | Steps: 31 | Loss: 34.221434 | Dataset: /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_dev.csv                                                                             
Epoch 0 | Validation | Elapsed Time: 0:00:29 | Steps: 91 | Loss: 242.853168 | Dataset: /mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_dev.csv                                   
Epoch 0 | Validation | Elapsed Time: 0:00:14 | Steps: 65 | Loss: 139.231356 | Dataset: /mnt/extracted/data/cv-fr/clips/dev.csv
I Saved new best validating model with loss 172.248882 to: /mnt/checkpoints/best_dev-586397
Epoch 1 |   Training | Elapsed Time: 0:15:39 | Steps: 1120 | Loss: 168.445158                                                                                                               
Epoch 1 | Validation | Elapsed Time: 0:00:02 | Steps: 31 | Loss: 35.868865 | Dataset: /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_dev.csv
Epoch 1 | Validation | Elapsed Time: 0:00:29 | Steps: 91 | Loss: 252.253984 | Dataset: /mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_dev.csv
Epoch 1 | Validation | Elapsed Time: 0:00:14 | Steps: 65 | Loss: 144.695296 | Dataset: /mnt/extracted/data/cv-fr/clips/dev.csv
Epoch 2 |   Training | Elapsed Time: 0:15:35 | Steps: 1120 | Loss: 158.498774    
WARNING:tensorflow:From /home/trainer/ds-train-fr/lib/python3.6/site-packages/tensorflow/python/training/saver.py:966: remove_checkpoint (from tensorflow.python.training.checkpoint_management) is deprecated and will be removed in a future version.
Instructions for updating:                    
Use standard file APIs to delete files with this prefix.
Epoch 2 | Validation | Elapsed Time: 0:00:02 | Steps: 31 | Loss: 37.718021 | Dataset: /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_dev.csv                                                                                              
Epoch 2 | Validation | Elapsed Time: 0:00:29 | Steps: 91 | Loss: 259.248127 | Dataset: /mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_dev.csv
Epoch 2 | Validation | Elapsed Time: 0:00:14 | Steps: 65 | Loss: 149.385020 | Dataset: /mnt/extracted/data/cv-fr/clips/dev.csv
Epoch 3 |   Training | Elapsed Time: 0:15:39 | Steps: 1120 | Loss: 144.689475
Epoch 3 | Validation | Elapsed Time: 0:00:02 | Steps: 31 | Loss: 40.592877 | Dataset: /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_dev.csv
Epoch 3 | Validation | Elapsed Time: 0:00:29 | Steps: 91 | Loss: 277.970247 | Dataset: /mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_dev.csv
Epoch 3 | Validation | Elapsed Time: 0:00:14 | Steps: 65 | Loss: 160.652092 | Dataset: /mnt/extracted/data/cv-fr/clips/dev.csv
Epoch 4 |   Training | Elapsed Time: 0:15:43 | Steps: 1120 | Loss: 128.832886                                                                                                                                                                           
Epoch 4 | Validation | Elapsed Time: 0:00:02 | Steps: 31 | Loss: 44.560288 | Dataset: /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_dev.csv
Epoch 4 | Validation | Elapsed Time: 0:00:29 | Steps: 91 | Loss: 308.391034 | Dataset: /mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_dev.csv
Epoch 4 | Validation | Elapsed Time: 0:00:14 | Steps: 65 | Loss: 177.152804 | Dataset: /mnt/extracted/data/cv-fr/clips/dev.csv
Epoch 5 |   Training | Elapsed Time: 0:15:36 | Steps: 1120 | Loss: 114.762158  ^[[A
Epoch 5 | Validation | Elapsed Time: 0:00:02 | Steps: 31 | Loss: 49.119470 | Dataset: /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_dev.csv
Epoch 5 | Validation | Elapsed Time: 0:00:29 | Steps: 91 | Loss: 343.108495 | Dataset: /mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_dev.csv
Epoch 5 | Validation | Elapsed Time: 0:00:14 | Steps: 65 | Loss: 193.982464 | Dataset: /mnt/extracted/data/cv-fr/clips/dev.csv

belkacem77 · June 6, 2019, 9:50pm

Je dois mettre en place l’environnement le plus tôt possible pour soutenir. Au moins pour les tests.

lissyx · June 11, 2019, 3:36pm

Je ne pense plus avoir besoin de faire de changements côté Docker, j’ai mergé le code.

lissyx · June 12, 2019, 1:04pm

Pour ceux que ça intéresse :

git clone https://github.com/Common-Voice/commonvoice-fr
cd commonvoice-fr/DeepSpeech
docker build -f Dockerfile.train.fr --tag deepspeech-fr:transfer-learning-eng --build-arg ds_repo=lissyx/DeepSpeech --build-arg ds_branch=validate_label_fr .
-docker run --runtime=nvidia --mount type=bind,src=$HOME/tmp/deepspeech-fr-docker,dst=/mnt --mount type=bind,src=$HOME/tmp/deepspeech-eng/0.5.0/checkpoints/,dst=/transfer-checkpoint -e EPOCHS=100 -e LEARNING_RATE=0.00001 -e DROPOUT=0.15 -e LM_ALPHA=0.0 -e LM_BETA=0.0 -e ENGLISH_COMPATIBLE=1 deepspeech-fr:transfer-learning-eng

lissyx · June 12, 2019, 2:40pm

Et hop! https://github.com/Common-Voice/commonvoice-fr/releases/tag/v0.5.0-fr-0.1

rabaaooui.islam · June 27, 2019, 9:20am

j’ai testé le modéle que vous avez publié mais ça ne marche pas bien , il n’arrive méme pas à reconnaitre un mot

lissyx · June 27, 2019, 9:30am

Est-ce que vous avez bien lu les recommandations ci-dessus et le fait que c’est une première ébauche, loin d’être garantie comme fonctionnant bien ? J’ai eu plusieurs retours d’autres personnes, en s’assurant de suivre ces recommandations, capables d’obtenir des résultats encourageants.

Est-ce que vous pouvez faire un nouveau thread avec plus d’informations pour reproduire ?

rabaaooui.islam · June 27, 2019, 10:29am

Bonjour,

Pouvez vous me renseigner sur la façon de deployer les modèles que vous avez entraînés ?

Comme ça je m’assure que j’ai pas commis d’erreur lors de mon test.

Merci d’avance

Le jeu. 27 juin 2019 à 11:33, Lissyx via Mozilla Discourse discourse@mozilla-community.org a écrit :

lissyx · June 27, 2019, 10:59am

Il n’y a rien de spécial, je ne suis pas sûr de bien comprendre la question … Télécharger le fichier, et un binaire deepspeech (python, c++, nodejs, etc.).

rabaaooui.islam · June 27, 2019, 11:17am

c’est exactement ce que j’ai fais.

deepspeech --model output_graph.pbmm --audio [fichier à partir de test commun voice] --lm lm.binary --trie trie --alphabet /alphabet.txt

ce que je trouve en prédiction est très loin de la vrai phrase.

Pouvez vous me renseigner un peut plus sur vos résultats , Loss, WER,CER ou des exemples de test avec votre modèle.

Je travaille sur ce sujet depuis un beau moment et j’arrive pas vraiment à trouver un bon résultat c’est pour ça que je sollicite votre aide

Le jeu. 27 juin 2019 à 13:02, Lissyx via Mozilla Discourse discourse@mozilla-community.org a écrit :

lissyx · June 27, 2019, 11:23am

Et plus précisément ?

Le paramètre --alphabet /alphabet.txt, il n’y a pas d’erreur ?

J’ai déjà explicité dans le tout premier post que le WER était très élevé (95%) et le CER aussi.

lissyx · June 27, 2019, 11:26am

Une partie des mauvais résultats peut s’expliquer par des choses invalides dans les jeux de données, notamment dans Common Voice. Il y a des bugs ouverts sur GitHub · Where software is built et toute aide est bienvenue pour identifier, corriger les données à la fois dans les releases et dans ce qui est sur le site.

rabaaooui.islam · June 27, 2019, 12:44pm

Merci pour vos explication , moi je suis arrivée à avoir ces résultat :WER: 0.624416, CER: 0.296913.

lissyx · June 27, 2019, 12:46pm

Ok, et en faisant comment alors ?

pierrep · June 27, 2019, 12:51pm

Bonjour,

Merci pour ce premier modèle en Français !
J’ai essayé de l’utiliser sur des fichiers audio à moi et je ne parviens pas à avoir quelque chose d’acceptable.
Quand j’essaie tel quel j’obtiens une suite continue de lettres incompréhensibles
(ex:eplagemegenregbingmisgeosugearegimoigregosoepougoiroaga)
Par contre, si j’enlève l’argument du language model (lm.binary) là j’obtiens quelque chose qui se rapprocherait plus d’une suite de mots:
(ex: en pravement jonr e bien re mis e je ne suai jou aretie lete moi)
Est-ce qu’il n’y aurait pas un problème avec le language model ? Est-ce que vous avez une idée de ce que je peux faire ?

Merci

Topic		Replies	Views
Modèle français 0.2 pour DeepSpeech v0.6 Français (fr)	2	963	October 13, 2019
Modèle Français 0.6 pour DeepSpeech v0.7, v0.8, v0.9 Français (fr)	11	8416	July 5, 2021
Modèle français 0.4 pour DeepSpeech v0.6 Français (fr)	7	5512	March 29, 2021
Modèle français 0.3.4 pour DeepSpeech v0.6 Français (fr)	5	4214	March 10, 2020
DeepSpeech french model DeepSpeech	5	5328	August 2, 2019

Un premier modèle français

Related topics