Training Vietnamese model

the data is in utf-8 and I believe, DeepSpeech support it. Isn’t ?
If I trained on 5-6 files, I got one word decode, but if I trained on a big corpus of 100 hours, nothing decoded.
Thank you so much.

When I open unzip log.zip and open events.out.tfevents.1557923145.Hafsa it looks like this…

I asked for the log, what’s printed out as training runs.

I will share my next iteration result, which has short utterances.
I believe, if one doesn’t have a lot of data (like thousands of hours), it wouldn’t work on long utterances. Isn’t ?

Is it possible to show the entire log? Including the command that’s running?

Its from another iteration, but you can see the command.

python3 DeepSpeech.py --train_files /home/rc/Desktop/0.4.1/DeepSpeech-master/Urdu/train.csv --dev_files /home/rc/Desktop/0.4.1/DeepSpeech-master/Urdu/dev.csv --test_files /home/rc/Desktop/0.4.1/DeepSpeech-master/Urdu/test.csv
Preprocessing [’/home/rc/Desktop/0.4.1/DeepSpeech-master/Urdu/train.csv’]
Preprocessing done
Preprocessing [’/home/rc/Desktop/0.4.1/DeepSpeech-master/Urdu/dev.csv’]
Preprocessing done
I STARTING Optimization
I Training epoch 0…
I Training of Epoch 0 - loss: 556.158447
100% (5 of 5) |#######################################################################################################################################################| Elapsed Time: 0:01:15 Time: 0:01:15
I Validating epoch 0…
I Validation of Epoch 0 - loss: 441.805054
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:09 Time: 0:00:09
I Training epoch 1…
I Training of Epoch 1 - loss: 253.358310
100% (5 of 5) |#######################################################################################################################################################| Elapsed Time: 0:01:01 Time: 0:01:01
I Validating epoch 1…
I Validation of Epoch 1 - loss: 344.886566
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:16 Time: 0:00:16
I Training epoch 2…
I Training of Epoch 2 - loss: 267.624881
100% (5 of 5) |#######################################################################################################################################################| Elapsed Time: 0:01:01 Time: 0:01:01
I Validating epoch 2…
I Validation of Epoch 2 - loss: 309.133759
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:11 Time: 0:00:11
I Training epoch 3…
I Training of Epoch 3 - loss: 244.346558
100% (5 of 5) |#######################################################################################################################################################| Elapsed Time: 0:01:06 Time: 0:01:06
I Validating epoch 3…
I Validation of Epoch 3 - loss: 303.824341
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:11 Time: 0:00:11
I Training epoch 4…
I Training of Epoch 4 - loss: 222.930798
100% (5 of 5) |#######################################################################################################################################################| Elapsed Time: 0:01:07 Time: 0:01:07
I Validating epoch 4…
I Validation of Epoch 4 - loss: 294.534973
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:11 Time: 0:00:11
I Training epoch 5…
I Training of Epoch 5 - loss: 224.331677
100% (5 of 5) |#######################################################################################################################################################| Elapsed Time: 0:01:07 Time: 0:01:07
I Validating epoch 5…
I Validation of Epoch 5 - loss: 283.199036
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:11 Time: 0:00:11
I Training epoch 6…
I Training of Epoch 6 - loss: 213.346033
100% (5 of 5) |#######################################################################################################################################################| Elapsed Time: 0:01:12 Time: 0:01:12
I Validating epoch 6…
I Validation of Epoch 6 - loss: 279.630066
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:11 Time: 0:00:11
I Training epoch 7…
I Training of Epoch 7 - loss: 212.999857
100% (5 of 5) |#######################################################################################################################################################| Elapsed Time: 0:01:11 Time: 0:01:11
I Validating epoch 7…
I Validation of Epoch 7 - loss: 274.223053
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:11 Time: 0:00:11
I Training epoch 8…
I Training of Epoch 8 - loss: 206.666562
100% (5 of 5) |#######################################################################################################################################################| Elapsed Time: 0:01:08 Time: 0:01:08
I Validating epoch 8…
I Validation of Epoch 8 - loss: 272.326324
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:12 Time: 0:00:12
I Training epoch 9…
I Training of Epoch 9 - loss: 204.394440
100% (5 of 5) |#######################################################################################################################################################| Elapsed Time: 0:01:13 Time: 0:01:13
I Validating epoch 9…
I Validation of Epoch 9 - loss: 272.931549
I FINISHED Optimization - training time: 0:13:23
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:00 Time: 0:00:00
Preprocessing [’/home/rc/Desktop/0.4.1/DeepSpeech-master/Urdu/test.csv’]
Preprocessing done
Computing acoustic model predictions…
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:04 Time: 0:00:04
Decoding predictions…
100% (1 of 1) |#######################################################################################################################################################| Elapsed Time: 0:00:01 Time: 0:00:01
Test - WER: 1.000000, CER: 89.000000, loss: 299.336792

WER: 1.000000, CER: 89.000000, loss: 299.336792

  • src: “نیلم نے سالگرہ پر ہیڈ سیسموگراف اسود قریشی کے ماتھے پر اینٹھن اور غم کی آتشیں رو محسوس کی”
  • res: “”

I Exporting the model…
I Models exported at /home/rc/Desktop/0.4.1/DeepSpeech-master/exporth

You have to speficy the alphabet_config_path and lm_binary_path which indicate the alphabet used and the path to the language model respectively. If you don’t, it uses default values for these which are both for English.

I did that in flags.py

Computing acoustic model predictions…
100% (1 of 1) |##########################| Elapsed Time: 0:00:00 Time: 0:00:00
Decoding predictions…
100% (1 of 1) |##########################| Elapsed Time: 0:00:00 Time: 0:00:00
Test - WER: 0.000000, CER: 0.000000, loss: 27.773754

WER: 0.000000, CER: 0.000000, loss: 27.773754

  • src: “she had your dark suit in greasy wash water all year”
  • res: “she had your dark suit in greasy wash water all year”

I Exporting the model…
I Models exported at /home/rc/Desktop/0.4.1/DeepSpeech-master/exporth

I got the smoke test passed, I didn’t placed the english language model and trie file.
Meanwhile, I realized, there must be some issue with my language model and trie.
Please share some recommended guideline for language model and trie file. Thank you!

@kdavis Kindly recommend some guideline for language model and trie file making.
I am using DeepSpeech 0.4.1 and probably my native client is not compatible with deepspeech (I think I am using native client of 0.2.1) . My trie file which I build, is binary file but I am thinking it may causes issues or not compatible with decoding.
Or Please refer native client installation guide for DeepSpeech 0.4.1
Thank you!

These should not be set in flags.py. These are command line arguments, specified on the command line, not in code.

Also you have to create an alphabet.txt file and a language model to point to. You can use check_characters.py to create the alphabet.txt file and the instructions here, using your Urdu text instead of the LibriSpeech text, to create a language model.

1 Like