Faire un système simplifié = « Common Voice Kids »?

Intéressant, tu as des infos publiques ?

Ma compréhension après avoir suivi les échanges de @laubern avec @nukeador c’est pas tant que Mozilla n’est pas intéressé, au contraire, mais c’est que du point de vue legal on a pas l’infra encore nécessaire pour collecter le consenetement. Mais @laubern semblait dire qu’il l’a, alors du coup je sais pas si c’est un vrai problème.

Je travaille dans une école de quartier défavorisé, en CP dédoublé, et je fais travailler les phonèmes à mes élèves grâce à l’application de répétition-mémorisation Memrise, sur 2 petits jeux de données que j’ai cité plus haut.
Pour contourner le problème d’autorisation légale, qu’on m’a aussi objecté dans l’education nationale, je demande aux parents de s’inscrire eux-même, créer un compte à leur nom, et faire travailler leur enfant en leur présence. Il y a plein d’enfants qui font plein d’activités éducatives dans ces conditions. C’est pourquoi je dis que s’empêcher de faire participer les enfants est frileux. Il suffit de faire rédiger un texte de consentement parental par une équipe de juristes expérimentés.
Enfin, je travaille la fluence en classe, et avoir des “jeux” pour inciter les enfants à le faire à la maison, ça m’intéresse.
Une contrainte dans mon quartier : que ça se passe sur smartphone (100% des parents équipés) et non sur ordinateur (10% équipés).
J’ai déjà fait des propositions à Mozilla pour utiliser les assistants vocaux existants (Google et Alexa) pour entrainer à la répétition (et donc par exemple à l’anglais) : ils ne veulent pas non plus : limite légale…
Je cherche le lien de la conversation et je le poste ici.
Et bien sur, je suis volontaire pour ma classe dans les expérimentations dont vous parlez.

à la relecture, je me rends compte que mon histoire n’était pas très claire…
Mais nous pourrons en reparler.

Vu l’intérêt de @Francois_BOCQUET, peut-être que la solution d’une instance dédiée gérée du côté du ministère serait la plus simple pour la collecte mais je me demande comment gérer la réunification des données derrière

la limite légale là, ce sont les conditions d’utilisations de google et amazon, attention à ne pas mélanger

on a pas, à l’heure actuelle, de quoi collecter ce consentement, et il faut quelque chose qui soit légal partout

j’aimerais vraiment arriver à faire avancer ça, mais ça dépend entièrement de l’équipe common voice :confused:

Le Ministère soutient plusieurs projets dont un qui est sur ton besoin produit par Lalilo. Le connais tu ? La partie vocale est en train d’être produite.

Alors oui, j’avais approché Lalilo avant qu’ils ne rentrent dans un projet du ministère. A l’époque je n’avais pas réussi à leur faire comprendre que leur progression de phonèmes devait être stricte pour avoir une déchiffrabilité de 100%. J’avais donc abandonné. Et du coup quand ma hiérarchie m’a demandé si je voulais faire une expérimentation avec eux, j’ai décliné. Mais avec ce que tu me dis, c’est autre chose, et je vais retourner voir. Est-il encore temps pour participer ?

Oui il est encore temps. Tu peux dire que l’on se connaît si nécessaire. Ca ne devrait pas poser de problèmes. Tu es dans quelle académie ?

Ac de Montpellier. Tu as un lien de présentation de l’expérimentation ? Avec les attendus et les contraintes ? Mon CP ne sera plus dédoublé l’an prochain…

Si tu as un lien qui n’est pas public, mon adresse académique est sur laurent.bernardet à montpellier

Je cite Nukeador : “Our legal team asked us to if we need to and we don’t want to take any risks. The reality is that right now we don’t have the bandwidth to do so.”
Je continue de me demander : quels risques ? Etre accusé de travail illégal d’enfant ? Exposer des enfants à des textes inappropriés ? Il me semble que sans récolter de consentement spécifique, il suffit d’insérer quelques phrases dans l’acceptation des nouveaux membres volontaires dans CV. Si un parent crée un compte à son nom, il est autorisé à faire parler ses enfants sous sa propre surveillance, et les productions vocales de ses enfants ne seront pas revendues, ce n’est donc pas un travail, c’est un jeu. La seule chose que perd la base de données de CV, c’est le détail de l’age : dans le même compte il y aura des échantillons de parents et d’enfant. Le jeu en vaut-il la chandelle ? Je pense que oui…

Je n’ai pas les détails.

Il y a plusieurs éléments :

  • mettre en place le nécessaire pour avoir le filtrage approprié est en cours de travail : la campagne “premier segment” actuelle explore le mécanisme, mais c’est pas encore vraiment industrialisé si j’ai bien compris
  • l’équipe common voice est vraiment très petite, donc ils peuvent pas facilement s’engager sur de nouvelles choses comme ça
  • je crois que la terminologie “Common Voice for Kids” sous-entends une campagne de collecte dédiée et je crois que ça c’est assez compliqué légalement, pour garantir le consentement, or l’infra permet pas de le faire, et avec le point précédent, c’est pas simple.

Bonsoir,

Je pense que les problèmes juridiques évoqués ne tiennent pas stricto sensu à des problèmes de consentement, mais plutôt ils ont à voir avec les problèmes qu’a rencontrés Google avec la loi COPPA (Children’s Online Privacy Protection Act) pour YouTube. Elle réglemente la collecte de données sur les mineurs de 13 ans. Google a été condamné et a été obligé de modifier en profondeur son système de publication de vidéo pour détecter les contenus destinés à des enfants pour lesquels il ne fournit plus de publicité ciblée sur des données collectées. Il y a de fortes incertitudes sur ce que serait un contenu destiné aux enfants – et ça les juristes n’aiment pas les incertitudes – et plusieurs sociétés ont déjà été sanctionnées sous l’empire de cette loi.

Non je ne mélange pas. Mais là aussi, j’aurais espéré que Mozilla soutienne mieux CV : à ma connaissance, Google paie Mozilla pour aider au développement de Firefox, alors pourquoi la multinationale mettrait-elle des batons dans les roues de CV pour utiliser son assistant vocal à des fins d’entrainement d’un nouveau logiciel de reconnaissance vocale ? Il suffit d’un avenant aux conditions d’utilisation de ‘ok google’…

Non non, Google a un contrat avec MoCo pour amener du trafic sur le moteur de recherche

Parce que ça va générer de la concurrence et gêner son business?

D’une part, il n’y a jamais de “il suffit de” quand tu met en activité les départements juridiques, ça prends des plombes et des plombes, ça va chercher la petite bête partout (c’est leur taff), d’autre part ça ne sert aucunement les intérêts de google, donc aucune bonne raison pour eux de le faire

je peux pas te laisser dire ça : j’aime vraiment bien ton idée, et j’aimerais bien aider à la pousser, mais faut bien comprendre qu’il n’y a pas de moyens illimités, et Common Voice n’est pas plus pénalisé que plein d’autres projets chez Mozilla.

okaaay. Je ne dit pas ça. Alors dommage que tout ne puisse pas avancer plus vite… Déjà, ça existe, c’est bien.

mettre en place le nécessaire pour avoir le filtrage approprié est en cours de travail : la campagne “premier segment” actuelle explore le mécanisme, mais c’est pas encore vraiment industrialisé si j’ai bien compris

C’est le point clef (en relation par ailleurs avec Proportion de noms propres à consonnance étrangère)

Il faut plus de flexibilité pour permettre à l’utilisateur de choisir un set ordonné de phrases. Typiquement : un livre pour enfant.
Car pour un enfant de sept ans c’est un excellent passe-temps : C’est drôle et valorisant et ça permet la pratique de la lecture. Mais les phrases actuelles sont clairement inadaptées et frustrante.

Exemple typique : L’enfant choisi “Voyage au centre de la terre”, et le lit phase après phrase. Certaines phrases sont inadaptées à la collecte, mais ce n’est pas grave. Elles pourront très bien être ignorées.

  • Trouver des sources textuelles n’est pas un problème.
  • Trouver des enfants non plus.
  • Adapter la logique de “campagne”

Première question ou se trouvent les pull-requests relatives à la “first segment campaign” ?

Il s’agirait alors de s’en inspirer pour un mode “Lire un livre pour enfant”.

1 Like

Merci pour cette information. Nous recherchons depuis un moment des corpus contenant des enregistrements de voix d’enfants afin d’améliorer nos algorithmes d’aide à la décision médicale au sein du Samu. Jusqu’à présent, nous rencontrons encore de grandes difficultés avec les voix d’enfants :slight_smile: