Faire un système simplifié = « Common Voice Kids »?

Bonjour à tous.
J’enseigne la lecture aux élèves de 6 ans (CP en France).

Les enfants sont incapables de lire les phrases souvent inutilement compliquées et imprononçables de CommonVoice.

Inversement, sous l’effet combiné du confinement et du « premier segment cible » composé de mots isolés faciles, on voit fleurir en validation des voix d’enfants en grand nombre (ainsi que des voix féminines, plus fréquentes qu’avant, pour des raisons qui restent à déterminer).

Parents et enseignants seraient très demandeurs d’une plateforme qui lance un défi de lecture permanent pour les enfants d’age primaire, ou pourquoi pas collège. Bien sûr, tous les enregistrements seraient faits sous la supervision d’un adulte, qui cliquerait un consentement en responsabilité.

Et pour les enfants, ce serait très formateur de pouvoir s’écouter parler lors de la phase de vérification des clips avant envoi.

Enfin, les machines vocales du futur devront être adaptées aux voix d’enfants, si reconnaissables et donc si différentes de celles des adultes.

Je ne suis pas un spécialiste mais il me semble qu’il ne serait pas si difficile de dupliquer le site CommonVoice pour créer une plateforme CommonVoice Kids, alimentée uniquement de phrases simples, ou de mots isolés, par une foule d’enseignants ou autres professionnels intéressés : je veux bien m’y mettre.

Il pourrait même y avoir autant de bases de données CommonVoiceKids qu’il y a d’ages de lecture :

pour les 6-7 ans, les 8-9 ans, … et des tableaux d’honneurs pour petits, des diplomes, etc.

Comme enseignant, je peux garantir que je ne connais aucun outil équivalent en ligne, et que pourtant ça serait bien utile à l’apprentissage (on trouve quelque chose d’approchant dans Memrise : par exemple j’ai mis en ligne les jeux https://www.memrise.com/course/2089871/apprends-les-syllabes-cp-progression-taoki/ ou https://www.memrise.com/course/1457155/digrammes-2-mots-a-une-syllabe/ ).

C’est possible ?

2 Likes

Le sujet m’intéresse et je veux bien échanger sur la question des jeux de données de voix d’enfants.

Bonjour,
Oui, je pense que c’est utile dans un jeu de données, mais j’ai reçu une réponse négative des représentants mondiaux ou anglo-saxons de Mozilla : pas de participation d’enfants pour CommonVoice, pour des raisons légales. Je pense pour ma part que c’est trop “frileux”, mais l’avenir le dira…

Je travaille aux Ministère de l’éducation à la Direction du numérique pour l’éducation dans un bureau en charge du soutien à l’innovation.
Il y a deja 4 projets qui traitent de questions liés à la voix.
Un sur des sujets de fluence juste après l’apprentissage de la lecture cycle 2
Un sur des sujets de fluence mais plus pour des cycle 3 et 4
Un sur l’interaction vocal en contexte d’apprentissage des mathématique (cycle 2 et 3)
et un dernier sur un assistant vocal d’entrainement à la pratique de l’anglais.
La question de la constitution de jeux de données adaptés est sur la table avec plusieurs stratégies possibles. On peut en discuter si cela t’intéresse.
Si Mozilla ne veut pas aller sur ce terrain, nous risquons (surtout en français) de n’avoir durablement le choix entre des solutions privées soit des tres gros opérateurs américains ou chinois soit de sociétés plus petites comme SoapBoxLab à Dublin (au moins c’est en Europe).
A suivre donc…

2 Likes

Intéressant, tu as des infos publiques ?

Ma compréhension après avoir suivi les échanges de @laubern avec @nukeador c’est pas tant que Mozilla n’est pas intéressé, au contraire, mais c’est que du point de vue legal on a pas l’infra encore nécessaire pour collecter le consenetement. Mais @laubern semblait dire qu’il l’a, alors du coup je sais pas si c’est un vrai problème.

Je travaille dans une école de quartier défavorisé, en CP dédoublé, et je fais travailler les phonèmes à mes élèves grâce à l’application de répétition-mémorisation Memrise, sur 2 petits jeux de données que j’ai cité plus haut.
Pour contourner le problème d’autorisation légale, qu’on m’a aussi objecté dans l’education nationale, je demande aux parents de s’inscrire eux-même, créer un compte à leur nom, et faire travailler leur enfant en leur présence. Il y a plein d’enfants qui font plein d’activités éducatives dans ces conditions. C’est pourquoi je dis que s’empêcher de faire participer les enfants est frileux. Il suffit de faire rédiger un texte de consentement parental par une équipe de juristes expérimentés.
Enfin, je travaille la fluence en classe, et avoir des “jeux” pour inciter les enfants à le faire à la maison, ça m’intéresse.
Une contrainte dans mon quartier : que ça se passe sur smartphone (100% des parents équipés) et non sur ordinateur (10% équipés).
J’ai déjà fait des propositions à Mozilla pour utiliser les assistants vocaux existants (Google et Alexa) pour entrainer à la répétition (et donc par exemple à l’anglais) : ils ne veulent pas non plus : limite légale…
Je cherche le lien de la conversation et je le poste ici.
Et bien sur, je suis volontaire pour ma classe dans les expérimentations dont vous parlez.

à la relecture, je me rends compte que mon histoire n’était pas très claire…
Mais nous pourrons en reparler.

Vu l’intérêt de @Francois_BOCQUET, peut-être que la solution d’une instance dédiée gérée du côté du ministère serait la plus simple pour la collecte mais je me demande comment gérer la réunification des données derrière

la limite légale là, ce sont les conditions d’utilisations de google et amazon, attention à ne pas mélanger

on a pas, à l’heure actuelle, de quoi collecter ce consentement, et il faut quelque chose qui soit légal partout

j’aimerais vraiment arriver à faire avancer ça, mais ça dépend entièrement de l’équipe common voice :confused:

Le Ministère soutient plusieurs projets dont un qui est sur ton besoin produit par Lalilo. Le connais tu ? La partie vocale est en train d’être produite.

Alors oui, j’avais approché Lalilo avant qu’ils ne rentrent dans un projet du ministère. A l’époque je n’avais pas réussi à leur faire comprendre que leur progression de phonèmes devait être stricte pour avoir une déchiffrabilité de 100%. J’avais donc abandonné. Et du coup quand ma hiérarchie m’a demandé si je voulais faire une expérimentation avec eux, j’ai décliné. Mais avec ce que tu me dis, c’est autre chose, et je vais retourner voir. Est-il encore temps pour participer ?

Oui il est encore temps. Tu peux dire que l’on se connaît si nécessaire. Ca ne devrait pas poser de problèmes. Tu es dans quelle académie ?

Ac de Montpellier. Tu as un lien de présentation de l’expérimentation ? Avec les attendus et les contraintes ? Mon CP ne sera plus dédoublé l’an prochain…

Si tu as un lien qui n’est pas public, mon adresse académique est sur laurent.bernardet à montpellier

Je cite Nukeador : “Our legal team asked us to if we need to and we don’t want to take any risks. The reality is that right now we don’t have the bandwidth to do so.”
Je continue de me demander : quels risques ? Etre accusé de travail illégal d’enfant ? Exposer des enfants à des textes inappropriés ? Il me semble que sans récolter de consentement spécifique, il suffit d’insérer quelques phrases dans l’acceptation des nouveaux membres volontaires dans CV. Si un parent crée un compte à son nom, il est autorisé à faire parler ses enfants sous sa propre surveillance, et les productions vocales de ses enfants ne seront pas revendues, ce n’est donc pas un travail, c’est un jeu. La seule chose que perd la base de données de CV, c’est le détail de l’age : dans le même compte il y aura des échantillons de parents et d’enfant. Le jeu en vaut-il la chandelle ? Je pense que oui…

Je n’ai pas les détails.

Il y a plusieurs éléments :

  • mettre en place le nécessaire pour avoir le filtrage approprié est en cours de travail : la campagne “premier segment” actuelle explore le mécanisme, mais c’est pas encore vraiment industrialisé si j’ai bien compris
  • l’équipe common voice est vraiment très petite, donc ils peuvent pas facilement s’engager sur de nouvelles choses comme ça
  • je crois que la terminologie “Common Voice for Kids” sous-entends une campagne de collecte dédiée et je crois que ça c’est assez compliqué légalement, pour garantir le consentement, or l’infra permet pas de le faire, et avec le point précédent, c’est pas simple.

Bonsoir,

Je pense que les problèmes juridiques évoqués ne tiennent pas stricto sensu à des problèmes de consentement, mais plutôt ils ont à voir avec les problèmes qu’a rencontrés Google avec la loi COPPA (Children’s Online Privacy Protection Act) pour YouTube. Elle réglemente la collecte de données sur les mineurs de 13 ans. Google a été condamné et a été obligé de modifier en profondeur son système de publication de vidéo pour détecter les contenus destinés à des enfants pour lesquels il ne fournit plus de publicité ciblée sur des données collectées. Il y a de fortes incertitudes sur ce que serait un contenu destiné aux enfants – et ça les juristes n’aiment pas les incertitudes – et plusieurs sociétés ont déjà été sanctionnées sous l’empire de cette loi.

Non je ne mélange pas. Mais là aussi, j’aurais espéré que Mozilla soutienne mieux CV : à ma connaissance, Google paie Mozilla pour aider au développement de Firefox, alors pourquoi la multinationale mettrait-elle des batons dans les roues de CV pour utiliser son assistant vocal à des fins d’entrainement d’un nouveau logiciel de reconnaissance vocale ? Il suffit d’un avenant aux conditions d’utilisation de ‘ok google’…

Non non, Google a un contrat avec MoCo pour amener du trafic sur le moteur de recherche

Parce que ça va générer de la concurrence et gêner son business?

D’une part, il n’y a jamais de “il suffit de” quand tu met en activité les départements juridiques, ça prends des plombes et des plombes, ça va chercher la petite bête partout (c’est leur taff), d’autre part ça ne sert aucunement les intérêts de google, donc aucune bonne raison pour eux de le faire

je peux pas te laisser dire ça : j’aime vraiment bien ton idée, et j’aimerais bien aider à la pousser, mais faut bien comprendre qu’il n’y a pas de moyens illimités, et Common Voice n’est pas plus pénalisé que plein d’autres projets chez Mozilla.