[RFC] Critères d'acceptation pour la validation d'enregistrements

Traduction et adaptation de Discussion of new guidelines for recording validation faisant suite à discussion initiée dans Fr/listen : Critère de qualité pour acceptation/rejet d'enregistrements?.

Enregistrements problématiques

Erreurs de lecture

Votre lecture doit être fluide, naturelle et représenter exactement ce qui est écrit. Un enregistrement doit être rejeté même en cas d’erreurs mineures.

Parmi les erreurs fréquentes on inclura :

  • Les mots (y compris articles) omis ou transformés.
  • Les coupes trop brutales de l’enregistrement (avant la fin de la dernière syllabe par exemple).
  • Les tentatives de relectures d’un mot, les mots parasites, les syllabes alterées et autres onomatopées.
  • Les hésitations audibles, affectant la prononciation d’un mot ou supprimant une césure suffisamment nette entre deux mots.
  • Les liaisons fausses. En cas de doute, veillez à consulter les règles ou à “passer”.

Peuvent être tolérées :

  • Les hésitations silencieuses de courte durée.

  • Un rythme de prononciation atypique pour les cas de phrases agrammaticalles¹ ou celles dont la ponctuations filtrées porte à confusion.

  • :white_check_mark: Les cartes à jouer sont perdues.

  • :x: Des cartes à jouer sont perdues.
    [Article transformé]

  • :x: Les cartes à jouer euh sont perdues.
    [“euh” de trop]

  • :x: Les cartes à jouer sont perd
    [Enregistrement coupé trop tôt]

¹ Certaines phrases sont agrammaticales en raison du filtrage qui leur a été appliqué avant d’être introduite dans le corpus textuel.

Intonation, ponctuation et liaisons

La prononciation utilisée doit correspondre à celle d’un individu natif d’un pays francophone et à ses règles d’usage. Il s’agit donc d’accepter tout accent régional, belge, suisse, africain ou québecois.

Cependant, si l’erreur de prononciation semble due à une impréparation de la phrase, une méconnaissance du mot ou des règles de prononciation il est préférable de la rejeter.
En cas de doute, utiliser le bouton “passer”.

La ponctuation (comme les abréviations et sigles) est généralement éliminée. Elle doit cependant être prise en compte (mais surtout pas épelée) lorsqu’elle apparaît. Il en va de même lorsque la phrase présente un sens clair : L’intonation doit donc le mettre exergue ainsi qu’il en serait en situation naturelle.

Les liaisons font partie intégrante de la langue française parlée. Les enregistrements de phrases doivent donc les retranscrire sans omission ni erreur.

Exemple : “Il a été très étonné de voir ça !

  • :white_check_mark: Il a été très zétonné de voir ça !
  • :x: Il a été trè étonné de voir ça !
    Liaison absente.
  • :x: Il a été très pétonné de voir ça !
    Liaison fausse.
  • :x: Il a été très étonné de voir ça ?
    [Intonation. Ce n’est pas une question.]

Nom propres

De nombreuses phrases incluent des noms propres, expressions latines voir ancien français.
Pour les noms de culture locale, leur prononciation doit être exacte.

Exemple : “Monsieur Trannoy l’a dit de Montpellier.”

  • :white_check_mark: Monsieur Trannoa l’a dit de Monpeulier…
  • :x: Monsieur Trannauille l’a dit de Montpellier.
    [Erreur de prononciation de Trannoy]
  • :x: Monsieur Trannoy l’a dit de Montepellier.
    [Erreur de prononciation de Montpellier]
  • :x: Monsieur Trannoy l’a dit de Montpéllier.
    [Erreur de prononciation de Montpellier]

Pour les noms propres méconnus et/ou issus de langues étrangères, il est conseillé de "passer", sauf à connaître/faire usage de la prononciation correcte attendue.

Bruit de fond

Il est souhaitable que les algorithmes de reconnaissance vocale soient résistants à une ample gamme de bruits de fond, même significativement fort.
De tels enregistrements sont acceptables du moment que le bruit n’empêche pas l’écoute et la compréhension de chaque mot du texte.
Une musique de fond au volume faible n’est pas un problème du moment que chacun des mots est compréhensible.

  • :white_check_mark: Des cartes à jouer {tousse} sont perdues.
  • :white_check_mark: Des cartes à jouer sont per {tousse} dues.
  • :white_check_mark: Des cartes à jouer sont per {tousse}.

Si l’enregistrements contient des ruptures ou des craquements il doit être rejeté à moins que l’ensemble des mots puissent être compris.

  • :white_check_mark: {cracs} cartes à jouer sont per{crac}dues.

Voix en fond sonore

Une fond de voix indistinctes est acceptable. Mais d’autres voix concurrentes ne le sont pas car l’algorithme interpréterait les mots prononcés par ces voix qui ne font pas partie du texte écrit. Si des mots distincts peuvent être entendus qui ne font pas partie du texte, l’enregistrement doit être rejeté.
Cela peut se produire si une TV fonctionne en fond sonore où que le locuteur se trouve à proximité d’une conversation.

  • :x: Comment se fait-il qu’il … [autre voix] Tu viens ? … n’y ait pas pensé ?

Volume

Les variations de volumes entre les locuteurs sont naturelles. Ne doivent être rejetés que les enregistrements dont un volume trop élevé créerait des coupures ou, plus communément, dont un trop faible volume rendrait les mots incompréhensibles en l’absence du texte de référence.

Effets vocaux

La plupart des enregistrements présente une voix naturelle. Il est toutefois possible d’accepter des enregistrement occasionnels de voix inhabituelles (crié, chuchoté, dramatisé, …)
Cependant les enregistrements chantés ou issus d’une voix de synthèse doivent être rejetés.

Problèmes sur le texte écrit

See Discussion of new guidelines for uploaded sentence validation [TBT]

En cas de doute?

En dehors de ces considérations on s’appuiera sur le sens commun.
En cas de doute prolongé, “passez” à l’enregistrement suivant.

[v1, 2020/12/31, En attente de commentaires]

2 Likes

C’est une bonne base, je me permet de l’épingler et d’inciter d’autres à en débattre.

NB : j’ai envoyé à @drzraf par MP des suggestions de corrections linguistiques, car Discource n’est pas pratique pour ce genre de relecture.

Effectivement, Discource ne permet pas d’éditer un post passé un certain temps.

Merci pour les suggestions (prises en compte) @Mozinet

Un aspect sur lequel j’attends une réponse de la communauté anglophone (notamment un développeur de DSAlign), c’est sur les blancs en début, fin (ou milieu) d’enregistrement.

Je me demande dans quelle mesure cela rend l’enregistrement difficilement superposable aux mots et en conséquence nuisible à l’apprentissage.

ça va être compliqué …

Normalement, par construction, CTC s’en tape des blancs.

@drzraf Je sais que pas mal de temps s’est écoulé, mais @heyhillary est en train de travailler sur ce sujet, je vais lui indiquer ton document pour aider à la réflexion !

@drzraf @nana Les critères d’acceptations sont maintenant exposées. Pour le moment c’est une liste finie, en anglais, mais c’est localisable sur Pontoon (l’outil classique pour la localisation chez Mozilla).

Si l’un de vous deux (ou les deux) est intéressés, votre contribution serait tout à fait bienvenue à la fois sur :

  • la localisation de ces critères
  • l’évaluation par rapport à la liste partagée précédemment

Pour le moment, sur le site, c’est une liste fermée, mais @heyhillary travaille à ce que ça évolue pour que les communautés puissent rajouter des critères spécifiques :slight_smile:

Bonjour Lissyx,
Aïe, je crois bien que je ne suis pas à la hauteur : je ne sais même pas comment m’y prendre pour accéder à la liste en anglais.
Mais n’hésite pas à me contacter à nouveau dès que la liste en français sera mise à jour par hillary et accessible en ligne . :slightly_smiling_face:

C’est sur https://pontoon.mozilla.org/fr/common-voice/web/locales/en/messages.ftl/

Il faut que je retrouve, on doit avoir des guides pour se mettre à Pontoon, ça n’a rien de compliqué, il te faut un compte et les droits :slight_smile:

La page est aussi visible sur https://commonvoice.mozilla.org/fr/criteria

Très sympa, merci !
J’y étais allée jeter un coup d’oeil. Pas remarqué de vraie nouveauté. Je me trompe peut-être.

En gros, impossible pour Mozilla de rendre cette page flexible et proposer des règles particulières pour une langue particulière ?

Si l’anglais ne mentionne pas les liaisons ou les noms propres, les français se voient interdits de les mentionner ?

Merci Mozilla :expressionless:

Merci de rester respectueux. Tu réponds à des choses qui datent de janvier 2021, beaucoup de choses ont évoluées depuis. @heyhillary a lancé justement y’a quelques mois des travaux pour améliorer tout ça, mais j’ai pas trop suivi (désolé, mais fin janvier 2021 c’était très compliqué et j’ai changé d’équipe depuis).

je sais que ça fait beaucoup à lire mais tu devrais regarder du côté de https://discourse.mozilla.org/c/voice/239

Pour mémoire,

Pour comprendre le problème en deux mots, le système de traduction de fait que des traductions “1 pour 1”. On ne peut donc pas ajouter de “trucs spécifiques” pour les autres langues, qui ne serait pas déjà appliqués en langue EN (langue par défaut)

A ce jour (sept. 2022) la discussion n’est pas trop active sur le channel EN non plus… Les dernières infos datent de nov’ 2021, et Hillary déclarait de que la “personnalisation par langue” était prévue pour 2022.

Cette fameuse page:

Que pensez-vous d’une PR avec un

if (this.state.language == 'fr') {
  criteriaList.push( ... critères s'appliquant au français ...)
}

puis direction Platoon et c’est réglé.

Passera / passera pas ?

thumb-up ?

Je pense que c’est une bonne idée. Si cela ne convient pas, au moins, on aura lancé le débat :slight_smile:

Une autre option est une idée que j’ai vu dans les documentation EN vers FR de Libre Office (bon, là, mon loggin plante, donc je peux pas montrer d’exemple, mais voici l’idée).

<localize>TITLE </localize>

<localize>This is the text that is common for everyone</localize>

<localize> ...(there is nothing to add here) <!-- This section is available for language specific additions, by translator --> </localize>

…thus, the last “translator reserved section” allow specific language/region/localisation/L10n additional sentences that are NOT common, but language specific :exploding_head:

Ah pardon j’ai fait le texte en anglais… Bah au moins tu n’auras pas à le traduire pour Hillary :stuck_out_tongue_winking_eye:

Sûr qu’en l’état ça passera pas, mais explicite le besoin à Michael Kohler et il devrait pouvoir te guider sur comment faire ça plus propre?