Phrases agrammaticales

Bonjour,

J’ai commencé à contribuer à Common Voice il y a quelques jours, et j’ai remarqué qu’un type d’erreur revenait régulièrement dans les phrases affichées (j’ai essayé de le signaler aussi souvent que possible). Il s’agit des dates, qui ne sont pas affichées, laissant des trous dans les phrases (les rendant agrammaticales et donc fausses dans leur prononciation).

Exemples-types (inventés) :

  • Le il fut libéré
  • Il remportèrent la coupe du monde le
  • Les traces doivent disparaître avant le, sinon elle aura des problèmes

J’ai remarqué qu’il s’agissait souvent des dates qui manquaient, mais il arrive qu’il manque d’autres éléments (et le fait que les contributeurs enregistrent ces phrases agrammaticales fausse la base de données). Seraient-ce tout simplement les chiffres en général ?

Ce problème est-il connu des développeurs ? Sera-t-il corrigé prochainement ?

C’est très probable, vu les exemples

Dates et chiffres sous formes numériques sont supprimés exprès en fait, pour éviter d’avoir des cas ambigüs dans le jeu de données : tout le monde ne prononcera pas pareil, par exemple « 1789 », certains pourraient dire « dix sept cent quatre-vingt-neuf » alors que d’autres pourraient dire « mille sept cent quatre-vingt-neuf ». Et ça, ça peut poser des soucis.

Sur certains imports, réalisés par mes soins, je m’étais assuré que num2words soit appliqué pour garder les chiffres mais sous forme textuel. Mais il semblerait qu’il y ait eu d’autres imports de données sans prendre en compte ça.

Autant je peux comprendre que ça puisse gêner la lecture des contributeurs, mais comme on s’intéresse à collecter la parole, que la grammaire soit fausse ou qu’il manque des mots, ça ne gêne pas pour la parole, il me semble.

Dommage, c’est justement la variation qui est valorisable, non ? Savoir que la façon de prononcer un nombre, un mot, que l’intonation varie selon l’âge du locuteur, la variété de français qu’il parle, ses groupes sociaux etc.

Le fait d’enregistrer des phrases syntaxiquement impossible pose la question de l’authenticité des prononciations. Cela pose problème au minimum au niveau de l’intonation ; il n’existe pas d’intonation naturelle pour une phrase qui n’a aucune chance d’être syntaxiquement produite. Pour exagérer, c’est comme si l’on devait prononcer “naturellement” une phrase comme : Le il m’a dit de des amis. C’est impossible.

Je posterai dans ce sujet les phrases agrammaticales que je rencontre et qui ne concernent pas les dates.

La variation est bonne, oui, mais tant que ça reste dans une certaine mesure. Sur les chiffres, comme donné en exemple, c’est pas le cas.

Oui, c’est ce que je pointais en parlant de gêner les contributeurs. Je sais pas d’où viennent ces phrases, mais ça ne me choquerait pas, si tu en as sur lesquelles ça fait vraiment des intonations étranges même en ayant lu la phrase avant, que tu les reportes via le système, normalement @hellosct1 suit ça.

Ensuite, y’a un paramètre à prendre en compte : quand on parle en règle général, on aura pas forcément une syntaxe et une grammaire parfaite, donc il y a aussi un bon côté à ce type de choses, ça peut aider le modèle à mieux gérer des intonations qui varient ““étrangement””.

IMHO c’est mieux d’utiliser la fonctionnalité pour indiquer qu’une phrase est problématique, sinon ça va passer sous le radar de l’équipe Common Voice.

Donc savoir comment varie le mot “rose” entre la région parisienne et la région méridionale c’est intéressant pour la base de données, mais pas de savoir comment prononcer les nombres (on ne parle même plus de variation si tous les nombres sont supprimés), ou de savoir comment varient par exemple “70” et “90” à travers la francophonie, c’est bien ça ? Où est-ce qu’on trace la limite de ce qui est intéressant de garder dans la variation (et pourquoi ne pas tout garder ?) ?

Quand un locuteur natif d’une langue parle sa langue, sa syntaxe est parfaite. Pas parfaite aux yeux des instances prescriptives comme l’Académie Française pour le français, parfaite d’un point de vue linguistique (descriptif), selon le critère de
grammaticalité (définition sur Wikipedia). Aucun locuteur natif ne prononcera jamais spontanément de phrase comme : “Le il m’a dit de des amis”. Il s’agit d’une phrase agrammaticale. L’intonation pour cette phrase ne pouvant pas exister sur le terrain linguistique réel, il est inutile de demander son enregistrement aux contributeurs.
Pas besoin que la phrase “[fasse] vraiment des intonations étranges même en ayant lu la phrase avant”, les phrases pour lesquelles il manque un déterminant numéral sont par exemple agrammaticales ; “Chez moi, j’ai poissons rouges”. On peut relire la phrase et la prononcer comme si de rien n’était, mais la prosodie sera fausse puisqu’il manque un déterminant devant “poissons rouges”, qui n’apparaît dans aucun contexte naturel derrière le verbe “avoir”.

Il s’agit peut-être de détails, mais la prosodie des voix de synthèse (un de leurs plus gros défauts) ne pourra que devenir plus naturelle si l’on arrête de proposer et d’enregistrer des phrases agrammaticales.

Je fais les deux, afin que l’on puisse avoir une trace ici des types de problèmes dans les phrases.

Merci beaucoup @lissyx du temps que tu prends pour répondre. J’espère ne pas être trop offensif dans mes propos, je cherche seulement à comprendre la situation pour pouvoir éventuellement améliorer les choses.