Diction forcée et liaisons absentes

Bonjour à tous,
nouveau sur cette plateforme, et vivant en allemagne depuis plusieurs années, je suis surpris du nombre de samples lus avec un rythme lent et une diction appuyée. Ce qui ne correspond pas du tout à ce que j’entends lorsque je suis de passage en France. Les liaisons appartiennent au français. J’en ignore l’absence si le locuteur a un accent étranger. Mais si le locuteur est français, je considèrerais plutot les samples comme mauvais. Ai-je raison?

Cordialement

Malheureusement, je crois que ça fait partie de la façon de parler de beaucoup de gens. On est pas là pour définir ou imposer une vision du français mais pour avoir une image de ce que les gens font, dans la vie courante.

Bonjour Lissyx et merci de votre répnse:

Mais-personne-ne-parle-comme-ceci-quand-je-vais-en-france.Si je regarde un debat TV, c’estplutotcommecelaqueleséchangesontlieu( respiration bruyante).
Il ne s’agit bien entendu pas de juger quelle diction est la bonne, mais plutot de rester proche du parler “naturel”. Les Francais ne sont pas vraiment réputés pour leur prononciation détachée… J’ai pris en compte les samples allemands, espagnols ou anglais- pour lesquels je participe aussi- à titre de comparaison.

Pour la vitesse de diction, c’est pareil en fait. La question c’est bien : est-ce que ce qui est dit correspond à ce qui est écrit. La manière dont c’est dit (trop lent, trop rapide) importe peu. Enfin, ça importe qu’on ait pas que des gens qui parlent lentement / haché, mais ça n’invalide pas pour autant les données.

Ça fait partie des choses à améliorer, l’équipe Common Voice travaille sur ça, et toute aide pour orienter / inciter les contributeurs à avoir des dictions différentes (lent, rapide, etc) est la bienvenue.

Malheureusement peu de monde participe à l’effort pour “driver” le projet côté francophone, je suis plus que surchargé et j’ai vraiment aucun temps pour ça (et je vois bien que les allemands, italiens, ont des contributeurs qui s’organisent à plusieurs pour gérer ça).

il s’agit aussi d’être le plus large possible : il y a des gens pour qui la diction sera lente, d’autre pour qui ça sera rapide. Ça peut aussi dépendre de l’instant. C’est pour ça que dans le peu de règles de validations qu’on indique, ça n’entre pas en ligne de compte.

D’accord. L argument du manque de personnel est bien sur imbattable. Serait-il plus utile pour la communaute que je participe seulement comme locuteur etranger dans les section anglaise, allemandes…pour y atteindre les 10000 heures en priorité?

Pas uniquement, toute contribution est la bienvenue, et aider à animer la communauté francophone ça fait partie des choses que j’arrive pas vraiment à initier :-).

En pratique, s’enregistrer ~300 fois dans chaque langue qu’on pratique ça suffit à avoir assez de données par personne, et par la suite, tu peux valider autant que tu veux.

Tu peux aussi venir discuter sur Matrix si tu veux contribuer d’autres manières: https://chat.mozilla.org/#/room/#common-voice-fr:mozilla.org

Cheers. 300, c’est enregistré.

Bonjour

Je me suis rendu de cela et l’explication, c’est que la personne qui parle ne déchiffre pas l’échantillon, c’est à dire qu’il lit et en meme temps il découvre la phrase à lire.

La solution c’est de lire l’échantillon avant d’appuyer sur le bouton enregistrement ou de réécouter après. Ceux sont 2 étapes souvent oubliés ce qui peut rendre l’effet de lenteur.

Le principal c’est que les mots écrits correspondent à l’écoute et qu’il ne manques pas de mots ou l’ajout de nouveaux mots dans la phrase ou d’échantillon accroché.

@pierre.bagieu n’hésites pas à en parler autour de toi pour augmenter la diversité des voix

cordialement

Bonjour Christophe,
j’ai entre-temps trouvé ce thread, dans lequel plusieurs de mes questions trouvent une réponse:

Les échantillons ont clairement un côté « lecture de texte ». Plein de gens vont, par exemple, respecter le temps de pause après une virgule, alors que dans la vie de tous les jours, il est vrai qu’on ne parle pas comme ça.

Peut être qu’un jour on pourra procéder dans l’autre sens. Partir d’un enregistrement audio déjà existant (discours, conférence, vidéos YouTube sous licence libre…), avant de retranscrire le texte et le valider. Ça sera sans doute plus naturel.

C’est une idée intéressante mais ça représente beaucoup de boulot pour intégrer ce genre de processus dans Common Voice à l’heure actuelle.

Je pense qu’avoir des gens comme vous motivés qui sachent animer des contributeurs et une communauté pourrait aider à ça, en analysant ce qui est enregistré. Bientôt on devrait avoir de quoi donner des indications de lecture aux gens, on a beau le dire quand on présente Common Voice, pouvoir rappeler ce genre de choses est intéressant !

1 Like