Comme toi, j’écoute tous mes enregistrements et il m’arrive fréquemment de les réenregistrer, soit parce que je n’ai pas articulé assez clairement, soit que le ton ne sied pas, soit qu’on entend en bruit de fond le cui-cui des oiseaux et qu’il me faut fermer la fenêtre.
C’est vraiment dommage que des spécialistes en reconnaissance vocale, par exemple ceux en charge de DeepSpeech, n’aient pas indiqué clairement ce qui était acceptable ou non.
Mais de ce que j’ai compris des différentes lectures que j’ai pu faire sur le sujet, il ne faut pas non plus chercher à produire des enregistrements parfaits, comme si on créait un livre audio de qualité professionnelle.
Le but visé, c’est tout de même de produire un modèle capable de retranscrire avec le moins d’erreur possible, n’importe quelle personne, peu importe son genre, son âge, son accent… et ce, dans toutes les conditions possibles. Donc, aussi bien une personne seule dans une pièce sans le moindre bruit, qu’une personne en extérieur avec le chant assourdissant des cigales ou utilisant un téléphone de mauvaise qualité. Et que la personne soit un bon orateur ou qu’elle soit timide, hésitante, handicapée, âgée avec du mal à s’exprimer…
Et comme chaque personne est différente, que ce soit en lisant un livre ou lors d’une discussion, certains auront une diction parfaite, prononceront bien les liaisons… quand d’autres auront bien du mal à se faire comprendre oralement. Et pourtant, il faudra bien que le logiciel soit un jour capable de comprendre tout le monde.
Dans le cas des liaisons, par exemple, tant que ça n’induit pas en erreur, j’essaie de ne pas être trop sévère (mais peut être que j’ai tort ).
Et c’est bien pour ça que j’aurais clairement préféré qu’on ait dès le départ un guide officiel, parce que là, tout le monde fait un peu ce qu’il veut, en étant plus ou moins strict. Et avec seulement deux validations, je me pose souvent la question de la qualité des échantillons acceptés à l’arrivée.
Pour le stock de phrases restantes ou les signalements, j’imagine qu’on peut contribuer, mais je n’ai aucune idée où ça se trouve et vais donc laisser lissyx nous en parler
Et pour les émojis, ça insert la version textuelle dans la boîte de saisie, mais normalement, ça s’affiche correctement dans la prévisualisation sur la droite, et quand tu postes ton message.