Soumissions de textes complets sous licences CC0

Je suis en train de récupérer différents textes issus de Gutenberg, issus du domaine public, notamment en utilisant le code du Projet “Common Voice Sentence Extractor” qui nettoie des fichiers à partir de textes bruts pour ne conserver que des phrases de moins de 15 mots, que je relis une par une ensuite.
Je me retrouve donc avec une multitude de fichiers textes, mais que je ne peux pas soumettre simplement (sauf à faire du copier/coller).
Où peut-on les déposer simplement, sans devoir faire des Pull Request ?
L’interface actuelle ne permet que d’envoyer des phrases une par une, ce qui est très fastidieux : cliquer sur la bonne source, puis accepter les CGU (pour chaque soumission de phrase !) ( "Je confirme que ces phrases sont du domaine public et que j’ai la permission de les envoyer.).
C’est très lourd et je trouve que ça décourage les envois massifs.
Il n’y aurait pas une possibilité de dépot simple de fichiers ou un formulaire avec une phrase par ligne par exemple ?

Merci.

2 Likes

Les PR c’est justement prévu pour les envois de masse. Je te conseil de fusionner tes fichiers textes en un seul et de le proposer en PR en expliquant comment tu l’as généré (avec un lien vers le code source par exemple).

Pour fusionner tes fichiers, tu peux utiliser cette commande avec bash:

cat *.txt > cc0.txt

Cette commande lit tous les fichiers se finissant en .txt dans le dossier actuel pour les ajouter au fichier cc0.txt.

Tu peux aussi définir la liste des fichiers à fusionner manuellement si tu préfères:

cat fichier1.txt fichier2.txt > cc0.txt