Proportion de noms propres à consonnance étrangère

drzraf · December 29, 2020, 4:19am

Après quelques temps d’écoute, je suis frappé par la très grande quantité de noms propres en général et à consonances étrangères en particulier (pour lesquels aucune règle française ne saurait assurer une prononciation correcte).

Je pense qu’il y a un problème général de qualité du corpus source (grammaire, conjugaison et adéquation à des locuteurs francophones, erreurs d’accents, champ lexical, noms propres en général, …), mais je pense que cet aspect particulier est visiblement très présent, assez problématique et bien identifiable.

Exemple typique : "Il a épousé Mercedes Caicedo de Lloreda de Costa Rica."
La locutrice est, à juste titre, bien embêté par une telle phrase et cela s’entend. (Elle en oublie même de prononcer le “a” avant “épousé”). Mais pour couronner le tout, on ne dit pas “de Costa Rica” (je crains une traduction automatique).

In fine ce genre de données, péniblement collectée, se révèle proprement inutile, de par sa nature et de part sa collecte, pour des utilisateurs francophones.

Note : Même dans le registre français on entend des “Bénédicte Tilloy” dans lesquels [oy] est prononcé “eauille” au lieu de “oi” ce qui est foncièrement faux. Il vaudrait remplacer ces noms par “Bob” ou “Anne” plutôt que de risquer des erreurs et des signalements.

Il ne devrait pas être difficile de filtrer cela hors du corpus mais j’imagine que changer les texte sources est chose sensible. Y a-t-il des suggestions/expériences à ce propos ?

lissyx · December 31, 2020, 3:51pm

je crois que c’est lié à l’import massif de données wikipedia, ça s’est fait sans moi …

malheureusement non, et ça manque de bras / temps, donc j’ai envie de dire, prime à celui qui s’y lance

drzraf · December 31, 2020, 4:09pm

Approche naïve :

Prendre un dictionnaire des toponymes (Geoportail) + un dictionnaire des noms et prénoms français + liste de noms propres acceptés (eg: liste de pays, personnalité du top-500 wikipedia/fr)
Chercher [^?!.:-][[:blank:]]([A-Z]\w+) (assumé nom propre) et conserver le nombre d’occurrences dans la phrase.

A partir de là : 2 possibilités :

si > 1 ou 2 occurrences, supprimer la phase
si en fin ou en début de phrase : remplacer (ex: Alice/Bob)
dans les autres cas : à voir (il faudrait déjà voir l’ampleur d’un diff et les cas produits puis affiner/décider

Le cas du remplacement est délicat (ex: toponyme versus prénom => non-sens). Féminin vs masculin => non-sens.
Le faire correctement serait quasiment un projet en soi : Il faudrait commencer par lister les noms propres notoires/acceptables/sans équivoque.

Note : Est-il aisément possible de supprimer des phrase du sentence-collector ?

lissyx · December 31, 2020, 4:30pm

Moi je suis pour voir du code, ce que tu décris a l’air pas mal. Je suis de retour de congés le 9,je pense pas reviewer d’ici la, donc pas d’urgence

lissyx · December 31, 2020, 4:37pm

Ah et pour supprimer c’est pénible mais ça se fait donc pourquoi pas

drzraf · January 2, 2021, 12:55am

Je viens de faire quelques tests à partir de 130k de noms propres issus de Prolexbase. Le corpus actuel (ce qu’il y a dans CommonVoice-Data) est, en règle général, très raisonnable (hormis certains livres particuliers comme Gutenberg 22039, 17232, 12246, 40763).
Le ratio “nombre de noms propres / noms” se maintient autour entre 9 et 15% avec (10.1% pour l’AN, 11.4% pour wikisource, 14% pour le théâtre et une moyenne à 10.6% essentiellement tirée par Gutenberg)

'[^?!.:-][[:blank:]]\K([A-Z'-][\waáàâäãåeéèêëiíìîïoóòôöõuúùûücçnñýÿ]{3,})' : Extrait 46k de mots capitalized distincts
J’ai testé de supprimer les noms communs et formes fléchées des verbes à l’aide de Morphalou 3
Et sur les 35k restant, retirés 4k de ceux, connus, faisant partie de la Prolexbase, ex: Ajaccio, Abbassides Lola, Barrabas, … et quelques autres issus de noms et toponymes courants (eg: communes françaises).

Sur les 30k résultants:

une partie est due à la présence d’anglais dans le corpus (Abigail, Aphrodit, …)
une partie est due à la présence d’ancien français dans le corpus
une partie du reste sont des nom de personnages atypique ²
dans la partie congrue restante ont trouve l’essentiel des noms propres rare (ex: froöern, krasnoiarsk, penmarckh, wenceslas)

Cela étant, dans ce qui est du repository actuellement, même les noms propres non-francophones sont (avec un peu de jugeote et de culture) à peu près prononçables car pour l’essentiel issus de langues latines.

Je n’exclue pas que cela pose tout de même des problème à l’algorithme à cause de la superposition accrue avec d’autres expressions (courantes, elles)

En gros : Pourquoi entraîner la machine avec 206 occurrences de “Quichotte” alors que le mot “chute” n’est présent que 442 fois et que (plus grave peut-être) “[…] qui chute” et “quelle chute” seulement une fois chacun. Je comprends bien que le scorer n’inclura pas “Quichotte” (au risque d’être très biaisé et inutilisable) mais seulement “qui”, “quelle” et “chute”, mais il n’en restera pas moins un biais d’apprentissage.

À titre indicatif, près de 10% des termes inconnus sont issus de la dizaine de livres mentionnée en annexe ³
Je pense que certains ouvrages de Gutenberg pourraient être soumis à un mode de filtrage plus strict. (Je pense aux glossaires, lexiques, dictionnaires, et autres texte d’avant 1800. On pourrait même utiliser la date de mort de l’auteur comme critère).
Pour ceux-ci, le mode strict omettrait les phrases contenant des mots inconnus.

Si c’est ok, je peux bien faire une PR avec ces heuristiques de nettoyage et quelques changements correspondant dans les sources, tout en gardant à l’esprit que ce n’est pas cette partie du dataset la plus gênante.

Mais, avec les outils, scripts et les métriques sous la main il semble maintenant clair (et potentiellement mesurable) que l’essentiel du problème n’est pas dans le repository mais ailleurs : l’import Wikipedia (comme vous le mentionniez).

Deux questions se posent donc :

Qu’est-ce qui est faisable quant à Wikipedia ? Qui a la responsabilité de la “maintenance” de ce dataset (désormais dans le sentence-collector) ?
Le script d’import/parsing & … wikipedia est disponible (ajouté à d5d17b1e), mais aucune trace des articles (apparemment sélectionné au hasard) qui ont été importés. Quels sont-ils ? Où en est la trace ?
Et plus généralement, quel processus formel pour la suppression/désactivation de phrases/articles malheureusement déjà importée ? Un CSV des phrases suffit-il ?

¹ https://hal.archives-ouvertes.fr/tel-01726999/document
² Exemple: (Nombre d’occurrences, fichier:terme):

    457 les_enfants_du_capitaine_grant.txt:glenarvan
    419 33738.txt:musset
    219 13950.txt:aramis
    206 42524.txt:quichotte
    198 les_misérables.txt:valjean
    198 vingt_mille_lieues_sous_les_mers.txt:nemo
    193 17372.txt:marcof
    176 les_misérables.txt:thénardier
    172 le_pays_des_fourrures.txt:hobson
    169 le_pays_des_fourrures.txt:barnett
    161 13950.txt:porthos
    159 8712.txt:faujas
    158 42432.txt:mothe
    154 autour_de_la_lune.txt:barbicane
    153 les_travailleurs_de_la_mer.txt:gilliatt
    149 54873.txt:nemo
    144 14157.txt:pécuchet
    144 798.txt:rênal
    138 31904.txt:panizzi
    138 deux_ans_de_vacances.txt:doniphan
    137 17184.txt:frémilly
    133 18215.txt:marcof
    133 4559.txt:lepic
    121 4717.txt:barbicane
    118 11621.txt:georgey
    118 28519.txt:myrtô
    116 autour_de_la_lune.txt:nicholl
    114 17372.txt:keinec
    114 28977.txt:cadio
    113 2945.txt:follentin
    111 8907.txt:josserand
    110 26504.txt:cornélius
    110 44488.txt:oulad
    109 28977.txt:korigane
    108 53503.txt:tourzel
    106 49004.txt:chariclée
    104 56990.txt:riquet
    102 42896.txt:chazolles
    100 13772.txt:rouletabille
[...]

³

lissyx · January 11, 2021, 12:14pm

En fait, l’import a déjà été fait, et normalement si des enregistrements ont été effectués ils devraient pas être représentés. Donc rajouter de nouvelles phrases “plus adaptées” suffira à réduire ce ratio, pas la peine de s’embêter à faire plus compliqué

“Personne” et “tout le monde”, les contributions sont les bienvenues. L’importeur est dispo: GitHub - common-voice/cv-sentence-extractor: Scraping Wikipedia for fair use sentences

Faut voir ça avec les gens de Common Voice, c’est pas moi qui l’ai fait, je sais pas.

Habituellement, c’était un fichier texte avec la liste des phrases à retirer, et un bug ouvert sur GitHub · Where software is built

HelloTheWorld · September 5, 2022, 11:42am

Bonjour,
Je réactive ce fil, plutôt qu’en ouvrir un nouveau…
Nouveau con-tributeur (et j’espère pas trop con-tout-court) sur la plateforme, j’ai fait quelques enregistrement, et je m’étonne du nombre impressionnant de textes avec des noms propres ou des noms de villes/villages/comptés etc. qui sont au mieux etrangers en alphabet latin (“British and 'mérica !”), ou moins mieux, qui sont avec un alphabet étranger (voir le post initial ci dessus).
Ne connaissant pas la règle, je (tente de) donne® la bonne prononciation, en allant sur Google est mon ami pour savoir quelle est la langue d’origine, et si possible sa phonétique… Mais est ce la bonne méthode ?

Ne faudrait il pas signaler / éliminer du corpus les noms z’exotiques en bulgares, arabe, islandais ou norvégien ?
Ou au contraire, les laisser… Mais inciter les locuteurs à passer les phrases qu’ils n’arrivent pas à prononcer ?

Après consultation des oracles, et de la règle, on ne parle pas, justement, des phrases/noms étrangers.

Je pense qu’il faudrait clarifier la règle, mais je suis looooooooooin d’avoir le recul nécessaire et suffisant pour cela.

Voilà, c’est tout pour l’instant

drzraf · September 5, 2022, 2:29pm

En un mot comme en cent, ce projet me semble condamné à mourir à petit feu à cause de l’impossible montée en qualité.
D’après moi, les raisons, par ordre décroissant d’importance sont les suivantes :

Garbage total introduit dans le lexique français : masse wikipedia (+ mauvais choix des textes sans précautions sérieuses). Cela a saboté sur le long-terme l’espoir d’un lexique de qualité.
Manque de responsabilités claires quant à l’import (qui importe quoi, quel suivi, cf wikipedia …)
Impossibilité de retirer des phrases (voir des ouvrages entiers) une fois importés (donc nettoyage impossible, lexique non-corrigeable)
Le salarié dédié n’est plus affecté à ce projet
Pas d’intérêt démontré, de la part de Mozilla, de prendre ces problèmes au sérieux

skeilnet · September 5, 2022, 3:33pm

Garbage total introduit dans le lexique français : masse wikipedia (+ mauvais choix des textes sans précautions sérieuses). Cela a saboté sur le long-terme l’espoir d’un lexique de qualité.

Sauf que CommonVoice n’a jamais prétendu concevoir un jeu de données lexicales…

CommonVoice c’est avant tout un set de données de la parole pour nous aider à créer des modèles de reconnaissance vocale et de transcription de la parole.

Les données lexicales sont importantes me m’éprenez pas, je dis juste que ce n’est pas le rôle de Mozilla de créer votre modèle de language, qui par définition, dépend de votre utilisation du modèle acoustique.

Pas d’intérêt démontré, de la part de Mozilla, de prendre ces problèmes au sérieux

Au contraire, je penses que depuis que Mozilla a lâché le maintien de DeepSpeech, ça laisse beaucoup plus de resources pour se concentrer sur la collecte de données d’une qualité introuvable ailleurs (gratuitement en tout cas) .

Est-ce qu’il y a des problèmes? Oui plein mais on a la chance de pouvoir contribuer pour changer. Touts les set de données ne peuvent en dire autant.

Impossibilité de retirer des phrases (voir des ouvrages entiers) une fois importés (donc nettoyage impossible, lexique non-corrigeable)

C’est pas impossible, on aimerais just éviter de rendre le processus trop simple pour que ça n’arrive pas trop souvent. Les “erreurs” seront de toute façon statistiquement in-impactante in fine. Si certaines parties du corpus ne vous conviennent pas, vous êtes toujours libre de ne pas les utiliser.

Le salarié dédié n’est plus affecté à ce projet

De quoi? Y a plein de gens affecté au projet CommonVoice… (plus d’un pour sûr!)

drzraf · September 5, 2022, 4:25pm

Bien, alors, concrètement voici 4 questions :

Suite à une étude succincte (scripts et données disponibles), j’ai précédemment mentionné 12 ouvrages/lexiques qui impactent négativement le lexique (en regard des nom propres uniquement) et responsables à eux-seuls de 10% des termes inconnus (aboutissant à des nombreuses erreurs de locution et portant un préjudice au projet en entier)

1. Pourriez-vous m’indiquer la procédure pour les supprimer ?
2. Dans le cas contraire, sauriez-vous indiquer la personne qui a la responsabilité de telles suppressions et le moyen de la contacter et/ou l’amener sur discourse ou github ?

D’autre part :
3. Sauriez-vous obtenir la liste des articles Wikipedia France choisis pour être importés dans le lexique (et leur révision/date) ?
4. Dans le cas, contraire, obtenir le contact de la personne qui en a eu la responsabilité et qui détient la réponse ?

Merci !

lissyx · September 5, 2022, 4:34pm

Il faut ouvrir un bug sur Common Voice GitHub - common-voice/common-voice: Common Voice is part of Mozilla's initiative to help teach machines how real people speak.

on l’a déjà fait dans le passé, à l’époque c’était un peu compliqué.

Tout est sur GitHub, il faut regarder l’historique

je n’ai jamais été officiellement affecté à Common Voice, mon manager de l’époque DeepSpeech me laissait passer du temps dessus, mais si j’avais des urgences, ça passait devant. j’ai lancé plusieurs fois des appels pour que des gens viennent contribuer et prennent des responsabilités pour ne pas que tout soit verrouillé sur un employé Mozilla, justement.

Je rappelle que @heyhillary fait régulièrement des réunions et autres justement pour que de nouvelles personnes s’impliquent plus en amont dans leurs langues

lissyx · September 5, 2022, 4:35pm

et il me semble que j’ai explicité ce qu’il fallait faire

skeilnet · September 5, 2022, 4:50pm

3. Sauriez-vous obtenir la liste des articles Wikipedia France choisis pour être importés dans le lexique (et leur révision/date) ?
4. Dans le cas, contraire, obtenir le contact de la personne qui en a eu la responsabilité et qui détient la réponse ?

Tout est sur GitHub, il faut regarder l’historique

j’ai précédemment mentionné 12 ouvrages/lexiques qui impactent négativement le lexique (en regard des nom propres uniquement) et responsables à eux-seuls de 10% des termes inconnus (aboutissant à des nombreuses erreurs de locution et portant un préjudice au projet en entier)

et il me semble que j’ai explicité ce qu’il fallait faire

Qu’est-ce qui est faisable quant à Wikipedia ? Qui a la responsabilité de la “maintenance” de ce dataset (désormais dans le sentence-collector) ?

“Personne” et “tout le monde”, les contributions sont les bienvenues. L’importeur est dispo: https://github.com/common-voice/cv-sentence-extractor

Oui je crois que ça répond bien à la question n° 3 et 4.

lissyx · September 5, 2022, 5:03pm

Certaines personnes attendent de Common Voice de présenter un français « irréprochable », mais à titre personnel je ne sais pas si c’est une bonne chose.

IMHO Il faut réfléchir en se disant « qu’est-ce que j’attends comme comportement en tant qu’utilisateur d’un modèle entraîné avec ces données ? »

Et à titre perso encore, je pense que des noms étrangers c’est bon, parce qu’on aura toujours besoin des fois d’en dire, et qu’on s’attends à une transcription plus ou moins correcte. Probablement que beaucoup de locuteurs qui ne connaissent pas la langue ne pourrons pas faire une diction correcte, mais ça restera représentatif, aussi.

Je suis pas trop pour la signalisation/suppression des données. Je préfère que les gens ignorent quand ils hésitent trop.

Je crois que maintenant la page pour donner des critères de validation est plus souple, donc le travail de @drzraf devrait être continué et débattu pour y être apposé ?

drzraf · September 5, 2022, 9:22pm

Non, ce n’est pas le cas de Wikipedia. (merci de vérifier, afin de nous éviter des allers-retours) : La seule référence c’est ce fichier ajouté dans d5d17b (Add missing files)

github.com/common-voice/commonvoice-fr

CommonVoice-Data/wikipedia.py

5699e5924


      
          def getPage():
              global pages
              if len(pages) < 1:
                  response = json.loads(urllib.request.urlopen("https://fr.wikipedia.org/w/api.php?format=json&action=query&generator=random&grnnamespace=0&grnlimit=1000").read())
                  pages += [page["title"] for id,page in response["query"]["pages"].items()]
          
              return pages.pop()

Ce script a récupéré des articles au hasard et ne conserve aucune trace relative ni à l’auteur, ni aux articles importé ni la date ni leur révision et pas même leur nombre
Sans accès à la DB, l’un des imports les plus significatifs ne dispose d’aucune traçabilité publique (dans GitHub), et c’est justement la raison de mes questions 3 et 4 qui restent donc d’actualité.

Concernant la procédure de suppression on parle ici de milliers d’items qui ont été importés en batch mais dont chaque suppression devrait faire l’objet d’un bug ? (création, lecture manuelle, suppression manuelle, fermeture du bug manuelle).

Même si je peux techniquement scripter ma partie “création de bug”, il semble évident que la procédure n’est pas adéquate à l’ampleur des suppressions nécessaire.
Ou bien il faudrait me donner la confirmation formelle qu’il est adéquat de créer, demain, 5.000 demandes de suppression ?

Enfin, concernant le “français irréprochable”, je prends la liberté de m’inscrire en porte-à-faux. L’ancien français, l’anglais, les noms à consonance étrangère, … créent des confusions pour un grand nombre de locuteurs. Je n’ai pas fait d’étude mais il va de soit que là où l’on aurait quelques pourcents d’erreur chez les locuteurs natifs, on passe à plusieurs dizaines de pourcents.

C’est donc autant d’association “phonème / son” erronées qui sont ajoutées chaque jour à cause de ces phrases.

Je sais parfaitement qu’on peut venir dire que “ça rend le modèle plus résilient”, car en psychologie comme en IA on peut mettre la résilience à toutes les sauces.

Sauf qu’en l’absence d’une publication scientifique décisive sur le sujet, le paradigme “garbage in - garbage out” me semble bien plus plausible.

D’après moi il s’agirait d’avoir d’abord un modèle qui excelle sur le français commun, voir littéraire et seulement ensuite se permettre de rajouter des choses marginales/fancy, ce qui n’est pas le cas actuellement.
J’ai déjà testé avec plusieurs gamins français entre 7 et 10 ans et ils ont tous mis en évidence le taux de phrases problématiques beaucoup trop élevé.

lissyx · September 5, 2022, 9:51pm

tout ce que j’ai importé, c’est passé commonvoice-fr/CommonVoice-Data/data at 5699e59244d14bb14d5b7603b91c934b761c9194 · common-voice/commonvoice-fr · GitHub en fait, c’est simple, ce sont les scripts shell dans commonvoice-fr/CommonVoice-Data at master · common-voice/commonvoice-fr · GitHub que j’ai fait tourner, donc si y’a pas de wikipedia.sh c’est que j’ai bricolé et j’ai dû constater que ça faisait plus de mal que de bien et j’ai laissé tombé

le projet common voice a, de son côté, fait des imports de wikipedia, j’ai pas suivi, et je sais juste que c’est avec GitHub - common-voice/cv-sentence-extractor: Scraping Wikipedia for fair use sentences

c’est bien pour ça que pour les imports français j’ai tenu à :

avoir des scripts
avec les paramètres de reproduction
qui génèrent des données finales dont on a la traçabilité avant ajout

Pour ce qui a été fait via Sentence Collector et l’extracteur mentionné avant, je n’ai pas d’autre bonne solution, et en débattre dans Common Voice - Mozilla Discourse est la meilleure façon de faire avancer le problème

Alors il y a eu plusieurs publis sur Common Voice, je les aies pas lues

Les utilisations de ton modèles seront-elles sur un français commun parfait ? Il faut quelque chose utilisable au quotidien.

Ensuite, ne pas oublier que les imports Sentence Collector sont la majorité maintenant, de ce que j’en ai entendu la dernière fois. Ces imports nécessitent aussi d’être validés par plusieurs personnes avant d’être acceptés.

Je dis pas qu’il n’y a pas de curation à faire, bien au contraire cf GitHub · Where software is built mais à l’époque de deepspeech j’ai déjà pas eu le temps de le faire, maintenant que je bosse plus du tout autour de ces thématiques c’est encore pire

Oui et non. Moi le premier certaines tournures d’ancien français c’est pas immédiat, mais :

c’est pour ça qu’il y a les fonctions signaler / passer, si la personne ne sent pas à l’aise il n’y a aucun soucis à passer
du point de vue du modèle ça peut être pertinent d’avoir des enregistrements de termes qui ne soient pas en français mais qui peuvent avoir leur place dans une phrase en français

Point important : ça n’est que mon opinion de quelqu’un qui a bossé sur le modèle pour essayer d’en faire un truc qui marche pour de vrai (avec l’aide de gens très sympas de eSup Pod) et même si ça n’a pas été fait dans le cadre d’une publi, j’ai constaté les grosses améliorations apportées par l’augmentation importante du volume de français sur Common Voice.

Mais je veux pas non plus qu’on imagine que c’est « la position officielle du projet Common Voice FR », ça reste mon opinion, et je trouve très important ce travail de curation, parce que j’ai aussi vu passer pas mal de déchets (et pas que dans Common Voice) quand j’ai bossé sur les importeurs dans deepspeech.

Et à la fin, c’est bien ceux qui font le travail d’amélioration comme celui que tu proposes qui décident

Oui, mais c’est quelque chose que j’avais suggéré y’a longtemps, je sais pas si hillary a pu avancer dessus, mais avoir des « profils » et pouvoir identifier des phrases dans certaines catégories permettrait de résoudre ça et améliorer l’utilisation pour les enfants, les personnes pas à l’aise avec le français, en évacuant ces phrases (parce que tout le temps faire « passer » ça peut être pénible à la longue)

Tu as fait un gros travail de catégorisation et de curation, ça serait vraiment triste que ça parte à la poubelle.

Dernier point, tu mentionnes

J’imagine que tu parlais de moi et donc j’insiste, même si je suis toujours salarié, même du temps de DeepSpeech c’était pas mon affectation principale, et même si je pouvais y passer du temps de travail (et des déplacements, pas mal), je n’étais pas dans l’équipe Common Voice. J’ai essayé de faire en sorte que d’autres aussi prennent en charge le projet, et la porte reste très grande ouverte.

skeilnet · September 6, 2022, 2:35am

On peut sortir les chiffres si vous voulez.

Modèle 0.6:

Common Voice FR (v5.1): ~490h
Total: ~1340h
WER sur CV: 30.12%
WER moyen: 29.11%

Modèle 0.8:

Common Voice FR (v8.0): ~826h
Total: ~2’551h
WER sur CV: 37.02%
WER moyen: 21.54%

C’est difficile de tirer un constat définitif sur deux point de donnés mais globalement voici ce que j’en conclus:

Le WER moyen diminue avec l’augmentation de données de qualité.
(~300 heures d’audio ont été remplacé par des nouvelles données de meilleur qualité en plus de ~1200h additionnelles).
L’ajout de ~340h d’audio dans CV a fait augmenter le WER sur celui-ci de 7.1%.
(On pourrait s’attendre à une légère augmentation de la difficulté lié au nouvelles données cependant on peut aisément constater que la version 8 de CV-fr possède un taux d’erreur par phrase plus élevé que la version 6 du set).

J’ai envie de dire qu’on arrive à une sorte de consensus, non?

Pour recap, on peut constater que l’ajout de grandes quantités de donnés (d’une qualité suffisante) permet d’améliorer les résultats cependant on pourra toutefois constater qu’on a une fâcheuse tendance à accumuler les erreurs au fils des ajouts, le bruit prenant de plus en plus de place face au signal.

De mon côté, j’ai pas mal fouiné dans CV, en voulant filtrer les données avant l’entraînement, la salle matrix de CommonVoice-Fr en sait quelque chose

Donc un ménage de printemps je dis pas non mais maintenant c’est surtout l’équipe de CommonVoice qu’il va falloir convaincre.

Il faut aussi garder à l’esprit que le set de donnés ne doit pas être parfait! La réalité ne l’est pas. Notre set doit simplement être représentatif proportionnellement à la langue orale.

La robustesse d’un modèle est un concept tout à fait tangible et mesurable (c.f différence entre le model 0.8 et 0.9). On veut quelle petites erreurs qu’un être humain lambdas pourrait commettre (c’est du signal ça, pas du bruit).

Comment faire la différence? On a cette super page de critères depuis quelques temps, elle est au poil honnêtement.

HelloTheWorld · September 6, 2022, 9:30am

Par expérience, mon humour souvent naze et parfois mal compris pourrait faire réagir certain·e·s d'entre vous. Mes excuses par avance si c'est le cas, ce n'est pas volontaire, il n'y a pas de volonté de mauvais esprit de ma part.

/me, hier : “Je suis un vieux routard de Wikipédia, j’aime clarifier les trucs pas clairs dans les aides et les documentations de modèle. Je pourrais me définir comme WikiGnome. Or, là, je me dis qu’il y a BEAUCOUP de mots étrangers dans mes échantillons, et je me dis que les règles sont pas claires… Donc je vais laisser un petit message sur un fil vieux de plus de 18 mois, confiant dans la communauté pour me répondre, mais sans grandes attentes. Qui ne tente rien n’a rien !”

/me, 24 h plus tard : “WHAT ??? Qu’est ce que j’ai dit ou fait pour avoir 10 réponses, et plusieurs pages de lecture ???”

/me, après avoir tout lu : "Bon… Va falloir répondre maintenant. "

Ce qui suit est donc une tentative de rattrapage de wagon , donc n’hésitez pas à ~~tirer sur l’ambulance~~ m’expliquer/corriger ce que je dis/m’envoyer sur la bonne page (“RTFM” is an acceptable answer …with the link) ~~(No I am not taking about Zelda! Stay focus !)~~

Bon, heureusement, sur internet , on n’est jamais perdu ! On est là.

En préambule, je tiens à affirmer que je ne voulais pas mettre de l’huile sur un feu qui avait l’air de couver. En lisant ton post initial et les réponses, drzraf, je me suis dit, comme skeilnet tout à l’heure, que ton travail était une bonne idée, et qu’il fallait en faire quelque chose. …Et je suis d’accord, lissyx, que des réponses avaient été données.
(…L’honnêteté m’oblige aussi à dire que je ne retrouve pas mes petits dans https://discourse.mozilla.org/c/voice/239, mais c’est sans doute le manque de pratique du forum et du projet.)
Et tant que j’y suis à lancer des fleurs, je suis bien conscient que c’est un projet participatif, chacun fait ce qu’il peut. Merci à vous trois d’avoir repris le sujet au vol !

Je commence par la fin, en bottant en touche sur toute la partie suppression des données . Je ne connais pas assez (pour l’instant) ni la programmation, ni le projet, ni les critères pour prendre à ma charge les propositions et méthodes de correction .
Amha, je vais plus faire des dégats qu’arranger les choses pour l’instant .

Attention, je ne dis pas que le débat en cours ne m’intéresse pas, bien au contraire, je dis juste que vous avez pour l’instant des discussions stratosphériques par rapport à mes connaissances sur le projet, et par rapport à des newbies .

Si la meilleure façon de ne pas avoir de la donnée moisie en sortie, c’est de ne pas la mettre à l’entrée (Garbage in - garbage out, en effet), il reste à définir les critères (d’entrée) pour les futurs apports, et comment nettoyer les entrées existantes. Et c’est laaaaaaargement hors de ma portée . J’ai cherché si Hillary avait lancé un sujet sur cette question, mais je n’ai pas trouvé (help needed ).

Cela étant… Mon objectif initial était beaucoup plus raz des pâquerettes ~~(oui, cet emoji est un tournesol, mais là n’est pas la question)~~, et avait pour but d’aider les “nouveaux” (…j’en fais partie !) à ne pas rajouter du bruit sur le signal. …Plus exactement, clarifier ce qui EST du bruit de ce qui est du signal .

Désolé si j’ai l’air de radoter, ma question initiale portait sur une éventuelle amélioration/complémentation de la page que tu cites, skeilnet, c.à.d. https://commonvoice.mozilla.org/fr/criteria. Elle est au poil pour tout ce qu’elle décrit.
…Mais elle POURRAIT expliquer s’il faut rejeter/passer/garder les noms exotiques. Ce n’est ni décrit dans la version VF, ni explicité dans la version EN. Et mes recherches dans le forum n’a rien donné… Si ce n’est ce post, qui avait l’air de dire, conformément à je ne sais plus quelle page de règle ** que je ne retrouve pas, qu’on devrait se limiter à l’alphabet latin, et donc qu’on devrait “supprimer” les mots non français. …Sauf que, comme les réponses de ce fils l’indiquent, depuis, les règles se sont (ou pas) assouplies . Bref, la nature ayant horreur du vide, nous sommes dans un flou artistique , perdus dans le brouillard , sans boussole pour naviguer.

** EDIT 2 : je parle de cette page : how to, qui décrit : " Ajouter de nouvelles phrases : (…) Lettres étrangères. Les lettres doivent exister dans la langue que l’on doit parler. Par exemple, « ж » est une lettre de l’alphabet russe mais n’est jamais utilisée en français et ne devrait donc jamais apparaître dans un texte source en français."

J’insiste, je venait humblement requérir l’avis ~~de l’Oracle~~ de ceux qui connaissent le projet , pour ne pas faire n’importe quoi, et permettre aux nouveaux (j’insiste encore) de savoir quoi faire dans les situations où il y a des mots qui ne sont pas à consonnance bien rançaise * (et je ne dis pas de chez nous, puisque la francophonie, ce n’est pas la France…).

Voilà voilà… Je vous souhaite pleins de bonnes choses, et je suis impatient de lire vos réponses. & .

* Celle là, elle est un peu capillotracté, je fais référence au nom de ce sub dans Reddit : https://www.reddit.com/r/rance/ …Encore une fois, c’est une blague naze, n’allez pas chercher à .

EDIT :
J’ai oublié de demander ce que signifie

WER sur CV: 30.12%
WER moyen: 29.11%

…J’avoue que j’ai pas beaucoup cherché, mais j’ai pas trouvé .

HelloTheWorld · September 6, 2022, 10:26am

Message qui sera utile plus tard.
Pendant qu’on y est, une fois qu’on aura tranché le débat ,
il faudra aller ici :
https://github.com/common-voice/commonvoice-fr/issues/21
pour retrouver le dossier des règles de validation.
(qui au jour de l’écriture de ces lignes est absent pour FR. yakafokon.)

Topic		Replies	Views
Diction forcée et liaisons absentes Français (fr)	12	1438	December 31, 2020
Quel est l'avis de la communauté? Français (fr)	2	658	October 31, 2019
Ressources sonores libres depuis Librivox Français (fr)	3	1001	September 5, 2022
Grosse proportion de mots accentués découpés Français (fr) learning , sentence-collection	8	830	October 25, 2019
Propositions de validations parfois limitées à 4 Français (fr)	3	1116	July 25, 2022

Related topics