Par expérience, mon humour souvent naze et parfois mal compris pourrait faire réagir certain·e·s d'entre vous. Mes excuses par avance si c'est le cas, ce n'est pas volontaire, il n'y a pas de volonté de mauvais esprit de ma part.
/me, hier : “Je suis un vieux routard de Wikipédia, j’aime clarifier les trucs pas clairs dans les aides et les documentations de modèle. Je pourrais me définir comme WikiGnome. Or, là, je me dis qu’il y a BEAUCOUP de mots étrangers dans mes échantillons, et je me dis que les règles sont pas claires… Donc je vais laisser un petit message sur un fil vieux de plus de 18 mois, confiant dans la communauté pour me répondre, mais sans grandes attentes. Qui ne tente rien n’a rien !”
/me, 24 h plus tard : “WHAT ??? Qu’est ce que j’ai dit ou fait pour avoir 10 réponses, et plusieurs pages de lecture ???”
/me, après avoir tout lu : "Bon… Va falloir répondre maintenant. "
Ce qui suit est donc une tentative de rattrapage de wagon , donc n’hésitez pas à tirer sur l’ambulance m’expliquer/corriger ce que je dis/m’envoyer sur la bonne page (“RTFM” is an acceptable answer …with the link) (No I am not taking about Zelda! Stay focus !)
Bon, heureusement, sur internet , on n’est jamais perdu ! On est là.
En préambule, je tiens à affirmer que je ne voulais pas mettre de l’huile sur un feu qui avait l’air de couver. En lisant ton post initial et les réponses, drzraf, je me suis dit, comme skeilnet tout à l’heure, que ton travail était une bonne idée, et qu’il fallait en faire quelque chose. …Et je suis d’accord, lissyx, que des réponses avaient été données.
(…L’honnêteté m’oblige aussi à dire que je ne retrouve pas mes petits dans https://discourse.mozilla.org/c/voice/239, mais c’est sans doute le manque de pratique du forum et du projet.)
Et tant que j’y suis à lancer des fleurs, je suis bien conscient que c’est un projet participatif, chacun fait ce qu’il peut. Merci à vous trois d’avoir repris le sujet au vol !
Je commence par la fin, en bottant en touche sur toute la partie suppression des données . Je ne connais pas assez (pour l’instant) ni la programmation, ni le projet, ni les critères pour prendre à ma charge les propositions et méthodes de correction .
Amha, je vais plus faire des dégats qu’arranger les choses pour l’instant .
Attention, je ne dis pas que le débat en cours ne m’intéresse pas, bien au contraire, je dis juste que vous avez pour l’instant des discussions stratosphériques par rapport à mes connaissances sur le projet, et par rapport à des newbies .
Si la meilleure façon de ne pas avoir de la donnée moisie en sortie, c’est de ne pas la mettre à l’entrée (Garbage in - garbage out, en effet), il reste à définir les critères (d’entrée) pour les futurs apports, et comment nettoyer les entrées existantes. Et c’est laaaaaaargement hors de ma portée . J’ai cherché si Hillary avait lancé un sujet sur cette question, mais je n’ai pas trouvé (help needed ).
Cela étant… Mon objectif initial était beaucoup plus raz des pâquerettes (oui, cet emoji est un tournesol, mais là n’est pas la question), et avait pour but d’aider les “nouveaux” (…j’en fais partie !) à ne pas rajouter du bruit sur le signal. …Plus exactement, clarifier ce qui EST du bruit de ce qui est du signal .
Désolé si j’ai l’air de radoter, ma question initiale portait sur une éventuelle amélioration/complémentation de la page que tu cites, skeilnet, c.à.d. https://commonvoice.mozilla.org/fr/criteria. Elle est au poil pour tout ce qu’elle décrit.
…Mais elle POURRAIT expliquer s’il faut rejeter/passer/garder les noms exotiques. Ce n’est ni décrit dans la version VF, ni explicité dans la version EN. Et mes recherches dans le forum n’a rien donné… Si ce n’est ce post, qui avait l’air de dire, conformément à je ne sais plus quelle page de règle ** que je ne retrouve pas, qu’on devrait se limiter à l’alphabet latin, et donc qu’on devrait “supprimer” les mots non français. …Sauf que, comme les réponses de ce fils l’indiquent, depuis, les règles se sont (ou pas) assouplies . Bref, la nature ayant horreur du vide, nous sommes dans un flou artistique , perdus dans le brouillard , sans boussole pour naviguer.
** EDIT 2 : je parle de cette page : how to, qui décrit : " Ajouter de nouvelles phrases : (…) Lettres étrangères. Les lettres doivent exister dans la langue que l’on doit parler. Par exemple, « ж » est une lettre de l’alphabet russe mais n’est jamais utilisée en français et ne devrait donc jamais apparaître dans un texte source en français."
J’insiste, je venait humblement requérir l’avis de l’Oracle de ceux qui connaissent le projet , pour ne pas faire n’importe quoi, et permettre aux nouveaux (j’insiste encore) de savoir quoi faire dans les situations où il y a des mots qui ne sont pas à consonnance bien rançaise * (et je ne dis pas de chez nous, puisque la francophonie, ce n’est pas la France…).
Voilà voilà… Je vous souhaite pleins de bonnes choses, et je suis impatient de lire vos réponses. & .
* Celle là, elle est un peu capillotracté, je fais référence au nom de ce sub dans Reddit : https://www.reddit.com/r/rance/ …Encore une fois, c’est une blague naze, n’allez pas chercher à .
EDIT :
J’ai oublié de demander ce que signifie
- WER sur CV: 30.12%
- WER moyen: 29.11%
…J’avoue que j’ai pas beaucoup cherché, mais j’ai pas trouvé .