Ressources sonores libres depuis Librivox

Le projet Librivox propose des libres audio sous licence “domaine public” qu’il s’agisse des textes ou des langues.
Il serait donc possible de récupérer ces livres avec leur texte ainsi que les voix associées. Pour le français (mais il y a aussi de nombreuses autres langues), ce sont plus de 900 ouvrages qui sont disponibles :

Ceci permettrait d’accélérer le collectage des voix.

Je lis dans la FAQ de CommonVoice qu’il faut plus de 10000 heures d’enregistrement pour un modèle vocal fiable.
Même si un premier pallier est annoncé à 1200 heures.
Or depuis 2018, en 4 ans, on est à moins de 900 heures validées. Ce qui suppose que le projet ne proposera un modèle abouti que dans 40 ans ?
Comment résoudre ce dilemme ? Ceci pourrait en décourager certain·e·s.

Des sources existantes pourraient être un point d’appui pour accélérer ce processus.

Merci.

1 Like

En se mobilisant pour faire contribuer :).

On a vraiment besoin de gens qui fassent ce type d’animation communautaire, ça se fait dans d’autres langues et ça permet une croissance plus soutenue.

Pour le modèle français que je réalisait et qu’un contributeur continue, on utilise déjà cette source en plus.

1 Like

Un autre soucis à prendre en compte, c’est que ces audio books doivent être traités :

  • découpage du son et du texte
  • alignement en petits morceaux de 10-15 sec max

C’est un énorme boulot, qui pourrait être partiellement automatisé avec DSAlign : c’était ce que je comptais faire avant que deepspeech ne soit arrêté. Même avec DSAlign c’est pas simple, et il faut pour que ça marche avoir déjà un modèle qui soit pas trop mauvais.

Autre limitation, ces audiobooks vont avoir un champs lexical pas forcément très varié, et surtout, peu de diversité vocale.

Côté licence, normalement c’est public domain, donc ça va mais c’est aussi un point à vérifier.

un premier pallier est annoncé à 1200 heures.
Or depuis 2018, en 4 ans, on est à moins de 900 heures validées. Ce qui suppose que le projet ne proposera un modèle abouti que dans 40 ans ?

Nos modèles n’utilisent pas CommonVoice comme seule source de données d’entraînement.

Notre dernier modèle, par example, utilise déjà plus de 2’500 heures d’audio (Modèle Français 0.9).

@lissyx l’a déjà mentionné mais on utilise déjà cette source dans nos sets de données (plus de détails sur Multilingual LibriSpeech (MLS)). Il s’agit d’un subset de LibriVox apte à être utilisé pour la recherche dans le domaine de la parole. S’il y’a sans doute de nouvelles données manquantes, la découpe du son et du texte ainsi que l’alignement en segments utilisable pour l’entraînement rendrait la tâche super fastidieuse pour finalement peu de données (d’une qualité incertaine).

La meilleure chose à faire pour améliorer nos modèles, c’est de contribuer à CommonVoice ! Que se soit en validant les données ou en les produisant.