Proposta classificazione frasi per Common Voice

Buonasera, possiamo usare qui l’italiano?
Vorrei proporre come nuovo argomento da discutere l’uso di una classificazione delle frasi in base alla frequenza di utilizzo delle parole, secondo il metodo già adottato universalmente per i corsi di lingue. Come si fa?

SI lo scopo è proprio usare l’italiano (ho fatto spostare la discussione in un thread apposito).
Il progetto common voice non si occupa di classificare le frasi perché non ne ha bisogno.
Loro hanno bisogno di “montagne” di frasi lette da più persone indifferentemente dalle parole interne perché devono poter riconoscere le lettere e la pronuncia di combinazioni di lettere.
Inoltre Common voice è il software di raccoglimento e revisione dei dati mentre il motore che analizza questi dati, che fa poi il modello di machine learning e che interpreta i comandi è DeepSpeech che già funziona ed ha diversi ingegneri che hanno implementato tutto secondo un paper di Baidu.

In poche parole implementare tutto questo per il progetto non ha utilità per le finalità attuali, anche perché oramai funziona da due anni e non hanno mai realizzato una classificazione delle frasi o registrazioni perché non è lo scopo del dataset. Il dataset è un insieme di dati organizzati per metadati e non classificati in questo caso.

Grazie Daniele “SI lo scopo è proprio usare l’italiano (ho fatto spostare la discussione in un thread apposito).”. Ne sono felice, perché mi viene piuttosto difficile tradurre in inglese e però, mi riserbo, se l’argomento sarà di interesse più ampio della nostra lingua di aggiungere anche una traduzione in una lingua più universalmente comprensibile.

Tuttavia il sito del progetto dichiara subito: " Il progetto Common Voice è un’iniziativa di Mozilla per insegnare alle macchine come parlano le persone nella vita reale."
Allora io sto lavorando da almeno sette anni alla diffusione mondiale di una lingua per poterne mettere a disposizione delle persone le enormi potenzialità di servizio e quindi continuo anche a cercare sperimentalmente metodi di ‘insegnamento’ efficienti ed efficaci.
Ebbene non ho mai visto niente di così paurosamente dispersivo come iniziare da una base di “montagne di frasi” indifferenziate.
Ora, mi rendo conto che il problema meriterebbe altra sede di discussione, ma volendoci limitare al progetto per l’italiano e superando ormai la raccolta letteraria già ampiamente oltre lo sbarramento indifferenziato di 5000 frasi validate, questo argomento potrebbe benissimo ancora riguardare pienamente la priorità di scelta delle frasi da leggere!
A tale proposito esiste un progetto su GitHub per selezionare le priorità di frasi a scopo didattico da Tatoeba e tresferirle ad Anki.
Grazie per l’attenzione.

Perché qui stiamo parlando di una macchina e non di una persona.

Le macchine imparano diversamente dalle persone, noi abbiamo bisogno della ripetizione e di memorizzare nel tempo (flashcard ad esempio), un software non ha queste “limitazioni” ma impara con montagne di dati.
Altrimenti non sarebbero necessarie 1.8 milioni di frasi e 1200 ore.

Noi stiamo lavorando per insegnare alle macchine come parlano le persone non come imparano le persone che sono due cose diverse.

Noi siamo razionali, le macchine logiche quindi i processi sono diversi altrimenti la programmazione non risulterebbe cose difficile ad esempio.

Buondì, come ha sottolineato Daniele la creazione del progetto Common Voice nasce proprio dall’esigenza di avere un dataset di frasi colloquiali differenti fra loro e lette da diverse persone.

Il fine di tale varietà di frasi scritte e registrazioni deriva dall’articolo di ricerca (https://arxiv.org/abs/1412.5567) da cui il team di Mozilla a preso spunto per la creazione dell’algoritmo DeepSpeech che serve a trascrivere brevi audio (speech-to-text).

Queste sono le motivazioni per lo sviluppo del variegato dataset di Common Voice, che essendo creato e a disposizione di tutti si può prestare poi a diversi progetti personali.

Ipotesi molto interessante… richiederà un approfondimento, appena appena le mie ricerche sperimentali me ne daranno il tempo. Grazie.

Prima di tutto grazie di cuore per l’attenzione e piacere di sentirti per la prima volta. Certamente l’esigenza di avere una grande varietà di voci registrate è importante per il progetto, ma limitandosi all’italiano stiamo già vedendo che emergono delle criticità, che in altre lingue per esempio non ci sono. Mentre in alcune lingue queste criticità sono talmente gravi da ritardarne la effettiva attivazione del progetto e in definitiva l’importante effetto di bootstrapping digitale della lingua che potrebbe essere determinante ai fini del suo apporto culturale globale. Insomma il cosiddetto “digital divide” che in questo caso potrebbe penalizzare anche la lingua italiana… non voglio insistere, ma basta dare un’occhiata obiettiva ai consuntivi attuali per rendersene conto.

Ti ringrazio e vado subito ad approfondire!

Chiudo il thread perché questa discussione non ha alcuna utilità per il progetto e può risultare fuorviante per i nuovi partecipanti.
Il progetto Common Voice non ha bisogno di classificare le frasi, lo scopo è di raccogliere materiale, creare un dataset di pubblico dominio di centinaia di ore di testo letto da più persone.
Questo dataset poi a seconda di chi lo utilizza per le sue necessità lo organizzerà/adatterà alle sue necessità. Nel caso di deepspeech la classificazione non è necessaria perché la farà direttamente quel software in base al suo algoritmo per imparare sfruttando il machine learning senza intervento umano.