Ressources sonores libres depuis Librivox

francoisa · July 28, 2022, 9:08pm

Le projet Librivox propose des libres audio sous licence “domaine public” qu’il s’agisse des textes ou des langues.
Il serait donc possible de récupérer ces livres avec leur texte ainsi que les voix associées. Pour le français (mais il y a aussi de nombreuses autres langues), ce sont plus de 900 ouvrages qui sont disponibles :

https://librivox.org/search?primary_key=2&search_category=language&search_page=1&search_form=get_results

Ceci permettrait d’accélérer le collectage des voix.

Je lis dans la FAQ de CommonVoice qu’il faut plus de 10000 heures d’enregistrement pour un modèle vocal fiable.
Même si un premier pallier est annoncé à 1200 heures.
Or depuis 2018, en 4 ans, on est à moins de 900 heures validées. Ce qui suppose que le projet ne proposera un modèle abouti que dans 40 ans ?
Comment résoudre ce dilemme ? Ceci pourrait en décourager certain·e·s.

Des sources existantes pourraient être un point d’appui pour accélérer ce processus.

Merci.

lissyx · July 29, 2022, 7:27am

En se mobilisant pour faire contribuer :).

On a vraiment besoin de gens qui fassent ce type d’animation communautaire, ça se fait dans d’autres langues et ça permet une croissance plus soutenue.

Pour le modèle français que je réalisait et qu’un contributeur continue, on utilise déjà cette source en plus.

lissyx · July 29, 2022, 7:31am

Un autre soucis à prendre en compte, c’est que ces audio books doivent être traités :

découpage du son et du texte
alignement en petits morceaux de 10-15 sec max

C’est un énorme boulot, qui pourrait être partiellement automatisé avec DSAlign : c’était ce que je comptais faire avant que deepspeech ne soit arrêté. Même avec DSAlign c’est pas simple, et il faut pour que ça marche avoir déjà un modèle qui soit pas trop mauvais.

Autre limitation, ces audiobooks vont avoir un champs lexical pas forcément très varié, et surtout, peu de diversité vocale.

Côté licence, normalement c’est public domain, donc ça va mais c’est aussi un point à vérifier.

skeilnet · September 5, 2022, 1:01pm

un premier pallier est annoncé à 1200 heures.
Or depuis 2018, en 4 ans, on est à moins de 900 heures validées. Ce qui suppose que le projet ne proposera un modèle abouti que dans 40 ans ?

Nos modèles n’utilisent pas CommonVoice comme seule source de données d’entraînement.

Notre dernier modèle, par example, utilise déjà plus de 2’500 heures d’audio (Modèle Français 0.9).

@lissyx l’a déjà mentionné mais on utilise déjà cette source dans nos sets de données (plus de détails sur Multilingual LibriSpeech (MLS)). Il s’agit d’un subset de LibriVox apte à être utilisé pour la recherche dans le domaine de la parole. S’il y’a sans doute de nouvelles données manquantes, la découpe du son et du texte ainsi que l’alignement en segments utilisable pour l’entraînement rendrait la tâche super fastidieuse pour finalement peu de données (d’une qualité incertaine).

La meilleure chose à faire pour améliorer nos modèles, c’est de contribuer à CommonVoice ! Que se soit en validant les données ou en les produisant.

Topic		Replies	Views
Proposition d'ajout dans la base Français (fr)	7	747	September 16, 2021
Soumissions de textes complets sous licences CC0 Français (fr)	1	383	January 18, 2024
Common voice corpus prochaine livraison? Français (fr)	7	1071	February 11, 2020
Modèle Français 0.6 pour DeepSpeech v0.7, v0.8, v0.9 Français (fr)	11	8382	July 5, 2021
Utilisation CommonVoice FR avec client Node.js Français (fr)	4	1306	February 7, 2021

Ressources sonores libres depuis Librivox

Related topics