Phrases agrammaticales

WikiLucas00 · July 29, 2020, 4:22pm

Bonjour,

J’ai commencé à contribuer à Common Voice il y a quelques jours, et j’ai remarqué qu’un type d’erreur revenait régulièrement dans les phrases affichées (j’ai essayé de le signaler aussi souvent que possible). Il s’agit des dates, qui ne sont pas affichées, laissant des trous dans les phrases (les rendant agrammaticales et donc fausses dans leur prononciation).

Exemples-types (inventés) :

Le il fut libéré
Il remportèrent la coupe du monde le
Les traces doivent disparaître avant le, sinon elle aura des problèmes

J’ai remarqué qu’il s’agissait souvent des dates qui manquaient, mais il arrive qu’il manque d’autres éléments (et le fait que les contributeurs enregistrent ces phrases agrammaticales fausse la base de données). Seraient-ce tout simplement les chiffres en général ?

Ce problème est-il connu des développeurs ? Sera-t-il corrigé prochainement ?

lissyx · July 29, 2020, 7:23pm

C’est très probable, vu les exemples

Dates et chiffres sous formes numériques sont supprimés exprès en fait, pour éviter d’avoir des cas ambigüs dans le jeu de données : tout le monde ne prononcera pas pareil, par exemple « 1789 », certains pourraient dire « dix sept cent quatre-vingt-neuf » alors que d’autres pourraient dire « mille sept cent quatre-vingt-neuf ». Et ça, ça peut poser des soucis.

Sur certains imports, réalisés par mes soins, je m’étais assuré que num2words soit appliqué pour garder les chiffres mais sous forme textuel. Mais il semblerait qu’il y ait eu d’autres imports de données sans prendre en compte ça.

Autant je peux comprendre que ça puisse gêner la lecture des contributeurs, mais comme on s’intéresse à collecter la parole, que la grammaire soit fausse ou qu’il manque des mots, ça ne gêne pas pour la parole, il me semble.

WikiLucas00 · July 30, 2020, 12:47am

Dommage, c’est justement la variation qui est valorisable, non ? Savoir que la façon de prononcer un nombre, un mot, que l’intonation varie selon l’âge du locuteur, la variété de français qu’il parle, ses groupes sociaux etc.

Le fait d’enregistrer des phrases syntaxiquement impossible pose la question de l’authenticité des prononciations. Cela pose problème au minimum au niveau de l’intonation ; il n’existe pas d’intonation naturelle pour une phrase qui n’a aucune chance d’être syntaxiquement produite. Pour exagérer, c’est comme si l’on devait prononcer “naturellement” une phrase comme : Le il m’a dit de des amis. C’est impossible.

Je posterai dans ce sujet les phrases agrammaticales que je rencontre et qui ne concernent pas les dates.

lissyx · July 30, 2020, 9:12am

La variation est bonne, oui, mais tant que ça reste dans une certaine mesure. Sur les chiffres, comme donné en exemple, c’est pas le cas.

Oui, c’est ce que je pointais en parlant de gêner les contributeurs. Je sais pas d’où viennent ces phrases, mais ça ne me choquerait pas, si tu en as sur lesquelles ça fait vraiment des intonations étranges même en ayant lu la phrase avant, que tu les reportes via le système, normalement @hellosct1 suit ça.

Ensuite, y’a un paramètre à prendre en compte : quand on parle en règle général, on aura pas forcément une syntaxe et une grammaire parfaite, donc il y a aussi un bon côté à ce type de choses, ça peut aider le modèle à mieux gérer des intonations qui varient ““étrangement””.

IMHO c’est mieux d’utiliser la fonctionnalité pour indiquer qu’une phrase est problématique, sinon ça va passer sous le radar de l’équipe Common Voice.

WikiLucas00 · August 3, 2020, 5:31pm

Donc savoir comment varie le mot “rose” entre la région parisienne et la région méridionale c’est intéressant pour la base de données, mais pas de savoir comment prononcer les nombres (on ne parle même plus de variation si tous les nombres sont supprimés), ou de savoir comment varient par exemple “70” et “90” à travers la francophonie, c’est bien ça ? Où est-ce qu’on trace la limite de ce qui est intéressant de garder dans la variation (et pourquoi ne pas tout garder ?) ?

Quand un locuteur natif d’une langue parle sa langue, sa syntaxe est parfaite. Pas parfaite aux yeux des instances prescriptives comme l’Académie Française pour le français, parfaite d’un point de vue linguistique (descriptif), selon le critère de
grammaticalité (définition sur Wikipedia). Aucun locuteur natif ne prononcera jamais spontanément de phrase comme : “Le il m’a dit de des amis”. Il s’agit d’une phrase agrammaticale. L’intonation pour cette phrase ne pouvant pas exister sur le terrain linguistique réel, il est inutile de demander son enregistrement aux contributeurs.
Pas besoin que la phrase “[fasse] vraiment des intonations étranges même en ayant lu la phrase avant”, les phrases pour lesquelles il manque un déterminant numéral sont par exemple agrammaticales ; “Chez moi, j’ai poissons rouges”. On peut relire la phrase et la prononcer comme si de rien n’était, mais la prosodie sera fausse puisqu’il manque un déterminant devant “poissons rouges”, qui n’apparaît dans aucun contexte naturel derrière le verbe “avoir”.

Il s’agit peut-être de détails, mais la prosodie des voix de synthèse (un de leurs plus gros défauts) ne pourra que devenir plus naturelle si l’on arrête de proposer et d’enregistrer des phrases agrammaticales.

Je fais les deux, afin que l’on puisse avoir une trace ici des types de problèmes dans les phrases.

Merci beaucoup @lissyx du temps que tu prends pour répondre. J’espère ne pas être trop offensif dans mes propos, je cherche seulement à comprendre la situation pour pouvoir éventuellement améliorer les choses.

lissyx · August 3, 2020, 7:07pm

La différence c’est que l’apprentissage derrière, il se débrouillera avec un accent, mais avec des manières totalement différentes de prononcer, ça sera plus compliqué.
J’ai pas de bonne solution pour le moment, et oui, pour l’exemple donné de 70-80-90 ça va être compliqué. IMHO la bonne solution c’est:

quand on sera capable d’indiquer des indications de prononciations
maintenant qu’on a une gestion des accents plus adaptés

Alors une fois le jeu de données dispo, on peut collecter les nombres correspondants aux variantes de la francophonie. Avoir tout ça dans un seul modèle francophone, il va falloir évaluer ce que ça donne.

Alors désolé mais là, je comprends pas ce que tu dis, je connais pas ce concept de grammaticalité. Dans ma tête, c’est le référentiel de l’académie, sans vouloir imposer quoi que ce soit (je me suis fait traité d’impérialiste colonialiste pour ça …, donc je prends les devants).

Oui, c’est pas l’idéal. Encore une fois l’axe principal d’utilisation à l’heure actuelle c’est la reconnaissance vocale, et dans ce cas là c’est pas très gênant que la personne ne s’exprime pas de manière fluide, voire ça permet de mieux entraîner le modèle sur cette diction (et à l’usage, je constate que c’est courant qu’on ait pas une diction fluide).

Pour la synthèse vocale, oui, ça risque d’être compliqué, il est probable qu’il faudra faire un nettoyage du jeu de données avec une heuristique pour être capable de détecter ça?

pas de soucis, la situation est assez simple: très peu de contributeurs actifs sur la production / intégration de textes, et l’import wikipedia semble ne pas avoir tenu compte de tout ça. Et une utilisation pour le moment très très tournée vers la reconnaissance et pas la synthèse vocale (pour avoir discuté avec mon collègue qui bosse dessus, en fait les volumes de données nécessaires sur la synthèse sont assez faibles quelques dizaines d’heures, et y’a besoin d’unicité dans les voix, du coup Common Voice n’est pas forcément le plus utile pour ça, en première approche).

Si t’es à l’aise, peut-être que ça vaut le coup de voir comment ça a été fait dans https://github.com/Common-Voice/cv-sentence-extractor et pouvoir revenir en arrière / améliorer le jeu de données.

Merci de faire du feedback, je veux pas donner l’impression d’en avoir rien à faire, c’est pas le cas, mais y’a beaucoup de choses que je n’ai pas le temps de faire

lissyx · August 4, 2020, 8:43am

d’ailleurs si on transcrit les chiffres en mots, suffit de faire des fois à la française, des fois à la suisse / belge / etc. pour avoir quelque chose qui soit représentatif

j’ai pas vérifié, mais je suppose que num2words sait déjà le faire puisqu’on lui donne la locale cible qu’on veut