Scorer spécialisé

Bonjour à tous,

Réalisant actuellement un projet utilisant le franglais, je me tourne vers DeepSpeech et CommonVoice pour entraîner un modèle custom. J’ai vu dans la section des modèles pour la version 0.6.0 de DeepSpeech avec des reconnaissances commençant à être efficace, mais pour le français pur, ce qui est insuffisant dans mon cas. Pour cela j’aurai besoin de réaliser un scorer dédié mais j’ai du mal à en comprendre l’intérêt. En regardant les textes utilisés par Mozilla pour l’entraînement du modèle anglais, je vois plusieurs phrases “bizarre” :

A
A A
A A A
A A A A
A A A A A
A A A A A A A A A A A A A A
A A A A A AH
A A A A A AH THE CRY WAS WRUNG FROM JOHNNIE
A A A A A BOVE SECOND SINGER DIMINUENDO
A A A A A MEN
A A A A A Y
A A A A AHOWOOH
A A A A ALL ABOARD
A A A A ARE FOUR PIECES OF WIRE OF THE SAME THICKNESS AS USED FOR THE PRECEDING NET
A A A A CITY IN SOUTH AMERICA
A A A A H
A A A A L L S WELL
A A A A OBSERVED M'TELA INTERESTEDLY
A A A A ONE OF THE UNITED STATES
A A A A RIVER IN SOUTH AMERICA
A A A A Y
A A A AH
A A A AH A A A AH
A A A AN ISTHMUS
A A A AS IN FA THER
A A A AS IN MARE

Si je comprends bien l’intérêt du scorer, le but est de fournir dans un fichier des phrases type que l’on souhaite pouvoir reconnaître pour notre modèle, tandis que les fichiers audio avec transcriptions sont là pour encadrer l’entraînement ?

c’est une faute ou c’est vraiment du franglais que tu vises ?

d’une part, y’a encore assez peu de données (820h) et pas forcément assez diverses pour du français, mais faut mieux expliquer ton besoin ““franglais””.

Comment indiqué dans la doc, le scorer permet de diriger le décodeur ctc (et réduire son espace de recherche), donc ça permet d’améliorer les résultats

c’est quel fichier ça, c’est librispeech utilisé comme source de texte?

Non non, c’est bien du franglais. Plus exactement le domaine ciblé est celui de l’industrie du numérique avec les méthodologie Scrum (et donc les termes techniques/agiles associés)

Oui, à cette adresse

ok, je pense que le scorer est bien la meilleure solution pour ça. si tu as regardé sur github, le modèle fr est encore que pour 0.6 parce que j’ai pas encore eu le temps, mais j’ai commencé le travail pour passer sur 0.7.

le scorer est construit à partir de wikipedia + des débats de l’assemblée nationale: dans ton cas, ça risque de pas être génial.

tu as quoi comme:

  • objectifs
  • besoins
  • données
    ?

Dans mon cas je vais devoir créer le tout de toute pièce en me basant sur des ouvrages des méthodologies Agile je pense.

L’objectif, comme le besoin, est assez flou puisqu’il s’agit avant tout d’une étude pour voir les possibilités actuelles. Dans un monde parfait, il s’agirait de retranscrire le contenu des daily Scrum (~10min) et d’en extraire tout le contenu pertinent pour automatiser un maximum de chose dans la gestion d’un projet (tag des issues, déplacement automatique wip->done etc…). C’est l’imagination et la faisabilité qui déterminent les limites du projet.
Au niveau des données je construis au fur et à mesure une base avec les enregistrements actuels des daily de plusieurs équipes de développement.

Faudrait voir aussi quant à la diversité des équipes : à l’heure actuelle, le français qu’on a peut être biaisé et mal reconnaître certaines population, donc si tu peux avoir des données plus variées c’est excellent.

C’est intéressant, j’aimerais bien voir ça avancer.

Avec le passage sur 0.7 + la prochaine release de Common Voice qui est pour bientôt, j’espère qu’on aura une belle amélioration de performances qui aidera pour ton cas.

Ça serait pas mal d’avoir un premier état, si t’as déjà quelques données, pour voir ce qu’on obtient aujourd’hui. Ça donnerait un point de départ.

Je vais essayer d’avoir un maximum de diversité oui, pour de pas spécialiser le moteur à quelques personnes.

N’étant pas l’instigateur du projet, pas sur de pouvoir partager cela en open source. Néanmoins j’'essayerai de partager un maximum si des résultats pertinents sont réalisés.

C’était pas forcément pour du code / des données, mais déjà savoir si ça fonctionne etc.

et/ou aider à ce que ça marche