Scorer spécialisé

tsaya · June 16, 2020, 1:50pm

Bonjour à tous,

Réalisant actuellement un projet utilisant le franglais, je me tourne vers DeepSpeech et CommonVoice pour entraîner un modèle custom. J’ai vu dans la section des modèles pour la version 0.6.0 de DeepSpeech avec des reconnaissances commençant à être efficace, mais pour le français pur, ce qui est insuffisant dans mon cas. Pour cela j’aurai besoin de réaliser un scorer dédié mais j’ai du mal à en comprendre l’intérêt. En regardant les textes utilisés par Mozilla pour l’entraînement du modèle anglais, je vois plusieurs phrases “bizarre” :

A
A A
A A A
A A A A
A A A A A
A A A A A A A A A A A A A A
A A A A A AH
A A A A A AH THE CRY WAS WRUNG FROM JOHNNIE
A A A A A BOVE SECOND SINGER DIMINUENDO
A A A A A MEN
A A A A A Y
A A A A AHOWOOH
A A A A ALL ABOARD
A A A A ARE FOUR PIECES OF WIRE OF THE SAME THICKNESS AS USED FOR THE PRECEDING NET
A A A A CITY IN SOUTH AMERICA
A A A A H
A A A A L L S WELL
A A A A OBSERVED M'TELA INTERESTEDLY
A A A A ONE OF THE UNITED STATES
A A A A RIVER IN SOUTH AMERICA
A A A A Y
A A A AH
A A A AH A A A AH
A A A AN ISTHMUS
A A A AS IN FA THER
A A A AS IN MARE

Si je comprends bien l’intérêt du scorer, le but est de fournir dans un fichier des phrases type que l’on souhaite pouvoir reconnaître pour notre modèle, tandis que les fichiers audio avec transcriptions sont là pour encadrer l’entraînement ?

lissyx · June 16, 2020, 3:30pm

c’est une faute ou c’est vraiment du franglais que tu vises ?

d’une part, y’a encore assez peu de données (820h) et pas forcément assez diverses pour du français, mais faut mieux expliquer ton besoin ““franglais””.

Comment indiqué dans la doc, le scorer permet de diriger le décodeur ctc (et réduire son espace de recherche), donc ça permet d’améliorer les résultats

c’est quel fichier ça, c’est librispeech utilisé comme source de texte?

tsaya · June 16, 2020, 3:39pm

Non non, c’est bien du franglais. Plus exactement le domaine ciblé est celui de l’industrie du numérique avec les méthodologie Scrum (et donc les termes techniques/agiles associés)

Oui, à cette adresse

lissyx · June 16, 2020, 3:45pm

ok, je pense que le scorer est bien la meilleure solution pour ça. si tu as regardé sur github, le modèle fr est encore que pour 0.6 parce que j’ai pas encore eu le temps, mais j’ai commencé le travail pour passer sur 0.7.

le scorer est construit à partir de wikipedia + des débats de l’assemblée nationale: dans ton cas, ça risque de pas être génial.

tu as quoi comme:

objectifs
besoins
données
?

tsaya · June 16, 2020, 5:04pm

Dans mon cas je vais devoir créer le tout de toute pièce en me basant sur des ouvrages des méthodologies Agile je pense.

L’objectif, comme le besoin, est assez flou puisqu’il s’agit avant tout d’une étude pour voir les possibilités actuelles. Dans un monde parfait, il s’agirait de retranscrire le contenu des daily Scrum (~10min) et d’en extraire tout le contenu pertinent pour automatiser un maximum de chose dans la gestion d’un projet (tag des issues, déplacement automatique wip->done etc…). C’est l’imagination et la faisabilité qui déterminent les limites du projet.
Au niveau des données je construis au fur et à mesure une base avec les enregistrements actuels des daily de plusieurs équipes de développement.

lissyx · June 16, 2020, 5:09pm

Faudrait voir aussi quant à la diversité des équipes : à l’heure actuelle, le français qu’on a peut être biaisé et mal reconnaître certaines population, donc si tu peux avoir des données plus variées c’est excellent.

C’est intéressant, j’aimerais bien voir ça avancer.

Avec le passage sur 0.7 + la prochaine release de Common Voice qui est pour bientôt, j’espère qu’on aura une belle amélioration de performances qui aidera pour ton cas.

Ça serait pas mal d’avoir un premier état, si t’as déjà quelques données, pour voir ce qu’on obtient aujourd’hui. Ça donnerait un point de départ.

tsaya · June 16, 2020, 5:16pm

Je vais essayer d’avoir un maximum de diversité oui, pour de pas spécialiser le moteur à quelques personnes.

N’étant pas l’instigateur du projet, pas sur de pouvoir partager cela en open source. Néanmoins j’'essayerai de partager un maximum si des résultats pertinents sont réalisés.

lissyx · June 16, 2020, 5:45pm

C’était pas forcément pour du code / des données, mais déjà savoir si ça fonctionne etc.

lissyx · June 16, 2020, 5:46pm

et/ou aider à ce que ça marche

Topic		Replies	Views
Help: how to generate a custom scorer? DeepSpeech	18	2712	August 13, 2021
First contact with Deep Speech DeepSpeech	10	908	July 29, 2020
DeepSpeech for narrow-domain bot creation DeepSpeech	26	1114	February 11, 2021
Modèle Français 0.6 pour DeepSpeech v0.7, v0.8, v0.9 Français (fr)	11	8385	July 5, 2021
Building my own scorer for Deepspeech DeepSpeech	0	368	November 10, 2021

Scorer spécialisé

Related topics