Bonjour à tous,
Réalisant actuellement un projet utilisant le franglais, je me tourne vers DeepSpeech et CommonVoice pour entraîner un modèle custom. J’ai vu dans la section des modèles pour la version 0.6.0 de DeepSpeech avec des reconnaissances commençant à être efficace, mais pour le français pur, ce qui est insuffisant dans mon cas. Pour cela j’aurai besoin de réaliser un scorer dédié mais j’ai du mal à en comprendre l’intérêt. En regardant les textes utilisés par Mozilla pour l’entraînement du modèle anglais, je vois plusieurs phrases “bizarre” :
A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A AH A A A A A AH THE CRY WAS WRUNG FROM JOHNNIE A A A A A BOVE SECOND SINGER DIMINUENDO A A A A A MEN A A A A A Y A A A A AHOWOOH A A A A ALL ABOARD A A A A ARE FOUR PIECES OF WIRE OF THE SAME THICKNESS AS USED FOR THE PRECEDING NET A A A A CITY IN SOUTH AMERICA A A A A H A A A A L L S WELL A A A A OBSERVED M'TELA INTERESTEDLY A A A A ONE OF THE UNITED STATES A A A A RIVER IN SOUTH AMERICA A A A A Y A A A AH A A A AH A A A AH A A A AN ISTHMUS A A A AS IN FA THER A A A AS IN MARE
Si je comprends bien l’intérêt du scorer, le but est de fournir dans un fichier des phrases type que l’on souhaite pouvoir reconnaître pour notre modèle, tandis que les fichiers audio avec transcriptions sont là pour encadrer l’entraînement ?