[RFC] Critères d'acceptation pour la validation d'enregistrements

Traduction et adaptation de Discussion of new guidelines for recording validation faisant suite à discussion initiée dans Fr/listen : Critère de qualité pour acceptation/rejet d'enregistrements?.

Enregistrements problématiques

Erreurs de lecture

Votre lecture doit être fluide, naturelle et représenter exactement ce qui est écrit. Un enregistrement doit être rejeté même en cas d’erreurs mineures.

Parmi les erreurs fréquentes on inclura :

  • Les mots (y compris articles) omis ou transformés.
  • Les coupes trop brutales de l’enregistrement (avant la fin de la dernière syllabe par exemple).
  • Les tentatives de relectures d’un mot, les mots parasites, les syllabes alterées et autres onomatopées.
  • Les hésitations audibles, affectant la prononciation d’un mot ou supprimant une césure suffisamment nette entre deux mots.
  • Les liaisons fausses. En cas de doute, veillez à consulter les règles ou à “passer”.

Peuvent être tolérées :

  • Les hésitations silencieuses de courte durée.

  • Un rythme de prononciation atypique pour les cas de phrases agrammaticalles¹ ou celles dont la ponctuations filtrées porte à confusion.

  • :white_check_mark: Les cartes à jouer sont perdues.

  • :x: Des cartes à jouer sont perdues.
    [Article transformé]

  • :x: Les cartes à jouer euh sont perdues.
    [“euh” de trop]

  • :x: Les cartes à jouer sont perd
    [Enregistrement coupé trop tôt]

¹ Certaines phrases sont agrammaticales en raison du filtrage qui leur a été appliqué avant d’être introduite dans le corpus textuel.

Intonation, ponctuation et liaisons

La prononciation utilisée doit correspondre à celle d’un individu natif d’un pays francophone et à ses règles d’usage. Il s’agit donc d’accepter tout accent régional, belge, suisse, africain ou québecois.

Cependant, si l’erreur de prononciation semble due à une impréparation de la phrase, une méconnaissance du mot ou des règles de prononciation il est préférable de la rejeter.
En cas de doute, utiliser le bouton “passer”.

La ponctuation (comme les abréviations et sigles) est généralement éliminée. Elle doit cependant être prise en compte (mais surtout pas épelée) lorsqu’elle apparaît. Il en va de même lorsque la phrase présente un sens clair : L’intonation doit donc le mettre exergue ainsi qu’il en serait en situation naturelle.

Les liaisons font partie intégrante de la langue française parlée. Les enregistrements de phrases doivent donc les retranscrire sans omission ni erreur.

Exemple : “Il a été très étonné de voir ça !

  • :white_check_mark: Il a été très zétonné de voir ça !
  • :x: Il a été trè étonné de voir ça !
    Liaison absente.
  • :x: Il a été très pétonné de voir ça !
    Liaison fausse.
  • :x: Il a été très étonné de voir ça ?
    [Intonation. Ce n’est pas une question.]

Nom propres

De nombreuses phrases incluent des noms propres, expressions latines voir ancien français.
Pour les noms de culture locale, leur prononciation doit être exacte.

Exemple : “Monsieur Trannoy l’a dit de Montpellier.”

  • :white_check_mark: Monsieur Trannoa l’a dit de Monpeulier…
  • :x: Monsieur Trannauille l’a dit de Montpellier.
    [Erreur de prononciation de Trannoy]
  • :x: Monsieur Trannoy l’a dit de Montepellier.
    [Erreur de prononciation de Montpellier]
  • :x: Monsieur Trannoy l’a dit de Montpéllier.
    [Erreur de prononciation de Montpellier]

Pour les noms propres méconnus et/ou issus de langues étrangères, il est conseillé de "passer", sauf à connaître/faire usage de la prononciation correcte attendue.

Bruit de fond

Il est souhaitable que les algorithmes de reconnaissance vocale soient résistants à une ample gamme de bruits de fond, même significativement fort.
De tels enregistrements sont acceptables du moment que le bruit n’empêche pas l’écoute et la compréhension de chaque mot du texte.
Une musique de fond au volume faible n’est pas un problème du moment que chacun des mots est compréhensible.

  • :white_check_mark: Des cartes à jouer {tousse} sont perdues.
  • :white_check_mark: Des cartes à jouer sont per {tousse} dues.
  • :white_check_mark: Des cartes à jouer sont per {tousse}.

Si l’enregistrements contient des ruptures ou des craquements il doit être rejeté à moins que l’ensemble des mots puissent être compris.

  • :white_check_mark: {cracs} cartes à jouer sont per{crac}dues.

Voix en fond sonore

Une fond de voix indistinctes est acceptable. Mais d’autres voix concurrentes ne le sont pas car l’algorithme interpréterait les mots prononcés par ces voix qui ne font pas partie du texte écrit. Si des mots distincts peuvent être entendus qui ne font pas partie du texte, l’enregistrement doit être rejeté.
Cela peut se produire si une TV fonctionne en fond sonore où que le locuteur se trouve à proximité d’une conversation.

  • :x: Comment se fait-il qu’il … [autre voix] Tu viens ? … n’y ait pas pensé ?

Volume

Les variations de volumes entre les locuteurs sont naturelles. Ne doivent être rejetés que les enregistrements dont un volume trop élevé créerait des coupures ou, plus communément, dont un trop faible volume rendrait les mots incompréhensibles en l’absence du texte de référence.

Effets vocaux

La plupart des enregistrements présente une voix naturelle. Il est toutefois possible d’accepter des enregistrement occasionnels de voix inhabituelles (crié, chuchoté, dramatisé, …)
Cependant les enregistrements chantés ou issus d’une voix de synthèse doivent être rejetés.

Problèmes sur le texte écrit

See Discussion of new guidelines for uploaded sentence validation [TBT]

En cas de doute?

En dehors de ces considérations on s’appuiera sur le sens commun.
En cas de doute prolongé, “passez” à l’enregistrement suivant.

[v1, 2020/12/31, En attente de commentaires]

2 Likes

C’est une bonne base, je me permet de l’épingler et d’inciter d’autres à en débattre.

NB : j’ai envoyé à @drzraf par MP des suggestions de corrections linguistiques, car Discource n’est pas pratique pour ce genre de relecture.

Effectivement, Discource ne permet pas d’éditer un post passé un certain temps.

Merci pour les suggestions (prises en compte) @Mozinet

Un aspect sur lequel j’attends une réponse de la communauté anglophone (notamment un développeur de DSAlign), c’est sur les blancs en début, fin (ou milieu) d’enregistrement.

Je me demande dans quelle mesure cela rend l’enregistrement difficilement superposable aux mots et en conséquence nuisible à l’apprentissage.

ça va être compliqué …

Normalement, par construction, CTC s’en tape des blancs.

@drzraf Je sais que pas mal de temps s’est écoulé, mais @heyhillary est en train de travailler sur ce sujet, je vais lui indiquer ton document pour aider à la réflexion !

@drzraf @nana Les critères d’acceptations sont maintenant exposées. Pour le moment c’est une liste finie, en anglais, mais c’est localisable sur Pontoon (l’outil classique pour la localisation chez Mozilla).

Si l’un de vous deux (ou les deux) est intéressés, votre contribution serait tout à fait bienvenue à la fois sur :

  • la localisation de ces critères
  • l’évaluation par rapport à la liste partagée précédemment

Pour le moment, sur le site, c’est une liste fermée, mais @heyhillary travaille à ce que ça évolue pour que les communautés puissent rajouter des critères spécifiques :slight_smile:

Bonjour Lissyx,
Aïe, je crois bien que je ne suis pas à la hauteur : je ne sais même pas comment m’y prendre pour accéder à la liste en anglais.
Mais n’hésite pas à me contacter à nouveau dès que la liste en français sera mise à jour par hillary et accessible en ligne . :slightly_smiling_face:

C’est sur https://pontoon.mozilla.org/fr/common-voice/web/locales/en/messages.ftl/

Il faut que je retrouve, on doit avoir des guides pour se mettre à Pontoon, ça n’a rien de compliqué, il te faut un compte et les droits :slight_smile:

La page est aussi visible sur https://commonvoice.mozilla.org/fr/criteria

Très sympa, merci !
J’y étais allée jeter un coup d’oeil. Pas remarqué de vraie nouveauté. Je me trompe peut-être.