Nous avons besoin de votre aide pour valider les phrases en français à importer de wikipedia

(Version française ci-dessous)

Hello Everyone,

We need your help helping us review a batch of the sentences we would like to add to the dataset. These sentences are pulled from an algorithm and need extra review before being added and we are looking for 90% approval of sentences before they are added to the dataset. You can choose for a sentence to either “Pass” or “Fail.”

We have some guidelines that we would like you to follow,

  • Numbers. There should be no digits in the source text because they can cause problems when read aloud. The way a number is read depends on context and might introduce confusion in the dataset. For example, the number “2409” could be accurately read as both “twenty-four zero nine” and “two thousand four hundred nine”.
  • Abbreviations and Acronyms. Abbreviations and acronyms like “USA” or “ICE” should be avoided in the source text because they may be read in a way that does not coincide with their spelling. Additionally, there may be multiple accurate readings for a single abbreviation. For example, the acronym “ICE” could be pronounced “I-C-E” or as a single word.
  • Punctuation. Special symbols and punctuation should only be included when absolutely necessary. For example, the apostrophe is included in English words like “don’t” and “we’re” and should be included in the source text, but it’s unlikely you’ll ever need a special symbol like “@” or “#.”
  • Foreign letters. Letters must be valid in the language being spoken. For example, “ж” is a letter in the Russian alphabet but is never used in French and so should never appear in any French source text.

Please let me know if you have any questions.

Thank you again!


(Traduction automatique, veuillez excuser les erreurs)

Bonjour à tous,

Nous avons besoin de votre aide pour nous aider à réviser un lot de phrases que nous aimerions ajouter au dataset. Ces phrases sont extraites d’un algorithme et nécessitent une vérification supplémentaire avant d’être ajoutées. Nous recherchons l’approbation à 90% des phrases avant leur ajout à l’ensemble de données. Vous pouvez choisir une phrase «Fail» ou «Pass».

Nous aimerions que vous suiviez certaines directives,

  • Nombres. Le texte source ne doit pas contenir de chiffres car ils peuvent causer des problèmes de lecture à voix haute. La façon dont un nombre est lu dépend du contexte et peut créer de la confusion dans le jeu de données. Par exemple, le nombre «2409» pourrait se lire avec exactitude à la fois «vingt-quatre zéro neuf» et «deux mille quatre cent neuf».
  • Abréviations et acronymes. Les abréviations et les acronymes tels que «USA» ou «ICE» doivent être évités dans le texte source, car ils peuvent être lus de manière à ne pas correspondre à leur orthographe. De plus, il peut y avoir plusieurs lectures précises pour une seule abréviation. Par exemple, l’acronyme «ICE» pourrait être prononcé «I-C-E» ou par un seul mot.
  • Ponctuation. Les symboles spéciaux et la ponctuation ne doivent être inclus qu’en cas de nécessité absolue. Par exemple, l’apostrophe est incluse dans les mots anglais tels que «don’t» et «we’re» et devrait être incluse dans le texte source, mais il est peu probable que vous ayez besoin d’un symbole spécial tel que «@» ou «#. ”
  • Lettres étrangères. Les lettres doivent être valides dans la langue parlée. Par exemple, “ж” est une lettre de l’alphabet russe qui n’est jamais utilisée en français et ne doit donc jamais figurer dans un texte source français.

S’il vous plaît laissez-moi savoir si vous avez des questions.

Merci encore!

2 Likes

Thank you everyone who helped with the review.

It seems the main source of errors are foreign words. We will check if there is a way to detect them, feel free to add your ideas here.

Thanks!


Merci à tous ceux qui ont contribué à la révision.

Il semble que les mots étrangers constituent la principale source d’erreurs. Nous vérifierons s’il existe un moyen de les détecter, n’hésitez pas à ajouter vos idées ici.

Merci!

Hi again,

We have just added a new tab with 500 more sentences, now without initials, minimum of 2 words and some broken spaces filtered out:

Can you please help us review them? If we have under 10% error rate, this would mean we should be ok to do the wikipedia extraction and import for French! :slight_smile:

Thanks!


Re-bonjour,

Nous venons d’ajouter un nouvel onglet avec 500 phrases supplémentaires, maintenant sans initiales, avec un minimum de 2 mots et quelques espaces brisés filtrés:

Pouvez-vous s’il vous plaît nous aider à les examiner? Si nous avons un taux d’erreur inférieur à 10%, cela signifierait que nous devrions pouvoir extraire et importer wikipedia en français! :slight_smile:

Merci!

The 500 sentences are now reviewed, thanks so much!

There are still some non-French words (English names or brands) that were signaled as “might be ok” we need to check.

We will check with the DeepSpeech team to see how problematic having those words is.


Les 500 phrases sont maintenant passées en revue, merci beaucoup!

Il y a encore des mots non français (noms anglais ou marques) qui ont été signalés comme “peut-être ok”, nous devons vérifier.

Nous allons vérifier auprès de l’équipe DeepSpeech pour voir à quel point il est problématique d’avoir ces mots.