Le projet Librivox propose des libres audio sous licence “domaine public” qu’il s’agisse des textes ou des langues.
Il serait donc possible de récupérer ces livres avec leur texte ainsi que les voix associées. Pour le français (mais il y a aussi de nombreuses autres langues), ce sont plus de 900 ouvrages qui sont disponibles :
Ceci permettrait d’accélérer le collectage des voix.
Je lis dans la FAQ de CommonVoice qu’il faut plus de 10000 heures d’enregistrement pour un modèle vocal fiable.
Même si un premier pallier est annoncé à 1200 heures.
Or depuis 2018, en 4 ans, on est à moins de 900 heures validées. Ce qui suppose que le projet ne proposera un modèle abouti que dans 40 ans ?
Comment résoudre ce dilemme ? Ceci pourrait en décourager certain·e·s.
Des sources existantes pourraient être un point d’appui pour accélérer ce processus.
Merci.