Bonjour à tous !
Je cherche à utiliser les données de la release 0.6 de CommonVoice FR dans le cadre d’un projet personnel d’assistant vocal offline.
Je suis très peu familier avec le monde de la DataScience, j’ai quelques doutes sur mon usage car j’ai pas mal de difficultés pour réussir à obtenir un résultat satisfaisant.
J’ai implémenté un serveur Node.js avec le client JavaScript DeepSpeech.
Depuis les fichier de la release, j’ai récupéré le fichier .pbmm
et .scorer
qui se trouvent dans l’archive model_tensorflow_fr.tar.xz
.
Du côté du code, je créais mon modèle à partir de ces deux fichierd, puis j’ajoute le scorer et les hyperparamètres:
const model = new DeepSpeech.Model(modelPath);
model.enableExternalScorer(scorerPath);
model.setScorerAlphaBeta(lmAlpha, lmBeta);
Enfin, j’utilise le micro d’un PS Eye pour générer un fichier .wav
afin de le lire et le transmettre à DeepSpeech. J’enregistre via une commande SoX:
sox --default-device --no-show-progress --channels=4 --rate=16000 --type=wav -V0 --endian=little --bits=16 --encoding=signed-integer --compression=0.0 -
J’ai donc plusieurs questions que j’aimerais vous partager
Sur la release, j’ai constaté qu’il y a d’autres paramètres:
EPOCHS=32
LEARNING_RATE=0.0001
DROPOUT=0.3
BATCH_SIZE=64
Est-il nécessaire de les utiliser ? Si oui, savez-vous comment ?
Il y a t-il quelque chose dans la configuration de SoX qui pourrait perturber les résultats ?
Est-ce que les temps de blanc peuvent perturber l’obtention de bons résultats ?
Merci d’avance pour vos retours