Ressources sonores libres depuis Librivox

Le projet Librivox propose des libres audio sous licence “domaine public” qu’il s’agisse des textes ou des langues.
Il serait donc possible de récupérer ces livres avec leur texte ainsi que les voix associées. Pour le français (mais il y a aussi de nombreuses autres langues), ce sont plus de 900 ouvrages qui sont disponibles :

Ceci permettrait d’accélérer le collectage des voix.

Je lis dans la FAQ de CommonVoice qu’il faut plus de 10000 heures d’enregistrement pour un modèle vocal fiable.
Même si un premier pallier est annoncé à 1200 heures.
Or depuis 2018, en 4 ans, on est à moins de 900 heures validées. Ce qui suppose que le projet ne proposera un modèle abouti que dans 40 ans ?
Comment résoudre ce dilemme ? Ceci pourrait en décourager certain·e·s.

Des sources existantes pourraient être un point d’appui pour accélérer ce processus.

Merci.

1 Like

En se mobilisant pour faire contribuer :).

On a vraiment besoin de gens qui fassent ce type d’animation communautaire, ça se fait dans d’autres langues et ça permet une croissance plus soutenue.

Pour le modèle français que je réalisait et qu’un contributeur continue, on utilise déjà cette source en plus.

Un autre soucis à prendre en compte, c’est que ces audio books doivent être traités :

  • découpage du son et du texte
  • alignement en petits morceaux de 10-15 sec max

C’est un énorme boulot, qui pourrait être partiellement automatisé avec DSAlign : c’était ce que je comptais faire avant que deepspeech ne soit arrêté. Même avec DSAlign c’est pas simple, et il faut pour que ça marche avoir déjà un modèle qui soit pas trop mauvais.

Autre limitation, ces audiobooks vont avoir un champs lexical pas forcément très varié, et surtout, peu de diversité vocale.

Côté licence, normalement c’est public domain, donc ça va mais c’est aussi un point à vérifier.