Proportion de noms propres à consonnance étrangère

Je suis d’accord sur la vision mais il y a un écueil : Il faut quand même que les mots dictés soient compris par le locuteur (et/ou que ce dernier ait une information sur la culture d’origine afin d’en inférer les règles de prononciation). Dans le cas contraire, créé des association “syllabe - son” erronées pour lesquelles tout le monde est perdant.

Personnellement, à voir le contenu du lexique et après avoir validé quantité de phrases, j’en suis arrivé à penser que seul le “pot commun” du lexique devrait être “language-based”. Le reste devrait être le fruit de lexiques spécialisés annotés dès lors que cela contient des anglicisme, mots latins ou japonais et autres termes à consonance bien distincte (biologie, informatique, géographie, adresse et noms propres …)

En effet, extraire/filtrer les termes et phrases propres à ces derniers lors d’une phase d’entraînement est très difficile sans l’annotation d’un set d’origine. (Et dans tous les cas, il faut des dictionnaires spécialisés)

Pour l’instant, l’idée est surtout d’éviter :

  1. De mauvaises performances liées à des mapping portant sur des termes inusités et trop souvent mal prononcés (ratio d’erreur très élevé)
  2. De réduire la barrière d’entrée causée par des phrases absconses qui rendent pénible la participation au projet

Concernant une réduction de la barrière d’entrée et la réalisation simple de lexiques spécialisés, je me permet de mentionner cette proposition que j’avais faite par le passé :

1 Like