Un premier modèle français

Et plus précisément ?

Le paramètre --alphabet /alphabet.txt, il n’y a pas d’erreur ?

J’ai déjà explicité dans le tout premier post que le WER était très élevé (95%) et le CER aussi.

Une partie des mauvais résultats peut s’expliquer par des choses invalides dans les jeux de données, notamment dans Common Voice. Il y a des bugs ouverts sur https://github.com/Common-Voice/commonvoice-fr/issues et toute aide est bienvenue pour identifier, corriger les données à la fois dans les releases et dans ce qui est sur le site.

Merci pour vos explication , moi je suis arrivée à avoir ces résultat :WER: 0.624416, CER: 0.296913.

Ok, et en faisant comment alors ?

Bonjour,

Merci pour ce premier modèle en Français !
J’ai essayé de l’utiliser sur des fichiers audio à moi et je ne parviens pas à avoir quelque chose d’acceptable.
Quand j’essaie tel quel j’obtiens une suite continue de lettres incompréhensibles
(ex:eplagemegenregbingmisgeosugearegimoigregosoepougoiroaga)
Par contre, si j’enlève l’argument du language model (lm.binary) là j’obtiens quelque chose qui se rapprocherait plus d’une suite de mots:
(ex: en pravement jonr e bien re mis e je ne suai jou aretie lete moi)
Est-ce qu’il n’y aurait pas un problème avec le language model ? Est-ce que vous avez une idée de ce que je peux faire ?

Merci

Ah, je croyais l’avoir mis : j’ai entrainé cette version sans LM, donc c’est normal.

(du coup j’ai mis à jour le premier post)

La sortie me semble effectivement plus acceptable, après c’est pas génial parce que pas assez de données encore … :slight_smile:

Du coup je crois que le problème ici c’est aussi le LM, faudrait réeesayer sans (et s’assurer de passer le bon alphabet).

En utilisant seulement le nouveau corpus ~180h commun voice , le checkpoint 0.5.0 et un modele de language crée à partir de corpus wikipedia

Aider :slight_smile: https://github.com/Common-Voice/commonvoice-fr/issues

Je compte faire une deuxième publication préliminaire, avec un LM, mais je suis encore en train d’évaluer les paramètres alpha et beta. La semaine passée on était à Whistler pour le All Hands, donc je n’ai pas pu y travailler, et avec la chaleur actuelle, c’est pas envisageable de faire tourner les GPUs pendant plusieurs heures :confused:

Quels paramètres ? le checkpoint 0.5.0 anglais ? Le même modèle de langage que celui que j’ai mis sur github ?

Bonjour,
Merci pour ce premier modèle que j’ai pu tester et qui me semble fonctionner pas trop mal. Je gère un projet de plateforme vidéo et je souhaite utiliser deepspeech pour faire de la transcription fr pour le sous-titrage. Malheureusement, je ne dispose pas de ressource matériel suffisante pour créer un modèle (pas de GPU et peu de CPU).
Bonne journée

Intéressant, c’est pour une instance PeerTube ?

Ok malheureusement entre les vagues de chaleurs et mon déménagement, j’ai pas eu ni le temps ni l’occasion de pouvoir avancer là dessus :confused:

Bonjour Lissyx,

J’ai entendu parlé de PeerTube mais non, c’est dans le cadre du projet Pod. C’est une plateforme de vidéo utilisée par une trentaine d’université.

Est-ce que quelqu’un a réussi à créer un modèle francais à partir du dataset fr de mozilla disponible à cette adresse : https://voice.mozilla.org/fr/datasets ?

Cordialement

C’est un projet de RENATER ? Ça m’intéresse fortement !

J’ai partagé ce que j’ai produit à partir notamment de Common Voice et d’autres. Il reste du boulot pour nettoyer les données dans Common Voice FR, trouver d’autres sources. Les résultats, comme tu as vu, sont encore très perfectibles mais c’est attendu vu le faible volume que l’on a.

C’est un projet inter-universités. Certaines personnes qui ont travaillé sur le projet sont parties chez renater. On va présenter le projet aux JRES 2019 oragnisée par Renater. Merci pour ton partage. Ou pourrais-je trouver les données ?

Tout est sur github :blush:

1 Like

Bonjour Lissyx,
J’ai bien trouvé ce partage que tu as mis à disposition : https://github.com/Common-Voice/commonvoice-fr/releases/tag/v0.5.0-fr-0.1
Un grand merci à toi pour tout le travail.
Bonne journée

1 Like