07/08/2020
Stavolta abbiamo notizie importanti!
- Il 22 luglio abbiamo fatto un altro sprint online di revisione di CV
- Abbiamo rilasciato due versioni del nostro corpus testuale (italiano discrosivo e in prima persona) al momento chiamato Mitads, un lavoro di 9 mesi per sostituire il dump di WIkipedia -> https://github.com/MozillaItalia/DeepSpeech-Italian-Model/releases/tag/Mitads-1.0.0-alpha2
- Stiamo discutendo anche del nome del corpus testuale sul ticket dedicato https://github.com/MozillaItalia/DeepSpeech-Italian-Model/issues/65 (aperto a tutti)
- Nuovo modello disponibile per le novità -> https://github.com/MozillaItalia/DeepSpeech-Italian-Model/releases/tag/2020.08.07
- Include versione pura e con transfer learning dall’inglese e la versione tflite per entrambi
- Abbiamo finalmente la partnership con l’Università di Torino che ci ha dato un server con qui abbiamo potuto fare tutto questo e che ci permetterà di sperimentare con parametri diversi
- Abbiamo bisogno di promozione di Common Voice e siamo alla ricerca di idee (rientra anche nella idea https://github.com/MozillaItalia/CommunityIssueTracker/issues/88), fate un salto sul nostro bot telegram mozitabot sul gruppo Home
- A giugno è stato rilasciata un altra versione del dataset di CV, stiamo a 130 ore
- Il bot telegram per provare il modello è da considerarsi obsoleto in quanto l’autore non risponde ai nostri tentativi di comunicazione per aggiornarlo
- Stiamo definendo una pipeline per generare il modello e siamo alla ricerca di suggerimenti https://github.com/MozillaItalia/DeepSpeech-Italian-Model/issues/92
Vi ricordo che ci trovate su telegram con il nostro bot @mozitabot