Buonasera a tutti/e,
Come forse avrete modo di vedere questo è il primo messaggio che lascio, anche se ho dato dei modesti contributi a common voice leggendo le frasi e validando le registrazioni (ho attualmente 192 registrazioni e 251 convalide). La mia domanda è un po’ ingenua e forse non è questo il luogo adatto per porla (spero in tal caso mi saprete dare qualche dritta in più):
Possibile che di tutte le frasi che ci sono da leggere la maggior parte non abbia anglicismi come OK o termini più colloquiali? Pare che il corpus di frasi sia costituito da pezzetti di romanzi che però contengono parole che difficilmente userei per dettare un’email al cellulare… certo ci va meglio di altri progetti (il francese sembra un elenco telefonico, ha quasi solo toponimi e nomi propri), ma rispetto alla varietà dell’inglese ne abbiamo di strada da fare…
Qualcuno può darmi lumi? Grazie in anticipo e buona lettura!
Ciao!
la scelta delle frasi è stata fatta tempo fa sui nostri gruppi telegram (cerca mozitabot) e siccome eravamo agli inizi decidemmo di partire con la cosa più semplice, ovvero evitare tutte quelle parole che creassero confusione perchè dovevamo testare le frasi stesse.
infatti poi ci siamo dedicati a correggere gli errori di battitura, grammatica, lunghezza delle frasi e aggiungendone di nuove.
Considerando poi che si tratta del modello italiano è giusto che includa principalmente termini italiani (specialmente adesso che non abbiamo neanche raggiunto le 50 ore) e stiamo lavorando per aumentare il volume delle frasi usando wikipedia.
Non è importante l’entropia delle parole o le parole disponibili ma il fatto che il software riconosca le varie sillabe, in poche parole non dove avere tante parole “ciao” per capire la parola “ciao” ma tante parole che includono le sillabe della parola “ciao”.
Io le definisco sillabe ma poi il software ha dei suoi sistemi per riconoscere che sono più avanzati e dipende dal suono, lettere adiacenti e non ecc.
Indipendentemente da questo stiamo lavorando per aumentare le frasi ma se non raggiungiamo una massa critica di contributor per la voce e revisione al momento specializzare il dataset è inutile.
Non siamo ancora al livello di altre lingue europee come dati raccolti