Regole/Linee guida per registrare frasi

Come promesso ecco qui di seguito anche le indicazioni, linee guida e suggerimenti su come registrare le frasi su Common Voice.

Prima di iniziare a registrare la frase consiglio di leggerla una volta in mente, così da non dover sbagliare parola/e durante la registrazione.

  • Timbro di voce normale: Parla come se davanti a te ci fosse una persona, quindi non urlare e non sussurrare
  • Velocità di lettura normale: Quando registri una frase non leggere troppo velocemente, né troppo lentamente. Parla come quando hai una persona davanti, e quindi deve riuscire a capire ciò che dici
  • Parla in maniera chiara: Il tuo accento, la tua cadenza sono assolutamente ben accetti! Ma, comunque, finisci di pronunciare tutte le lettere di tutte le parole, non ti fermare a metà. Anche le finali sono importanti!
  • Non leggere la punteggiatura, serve solo per farti capire meglio il senso della frase così da poterla leggere più comodamente. Common Voice non interpreta l’intonazione, quindi volendo si potrebbe leggerla anche come un robot
  • Non devono esserci rumori di sottofondo altrimenti la registrazione non è accettabile
  • Se la frase presenta molte parole straniere (diciamo più del 50% della frase), segnala la frase come Lingua differente
  • Regola sulle abbreviazione: Leggi questo commento in questo thread

Se hai dei dubbi puoi scrivere in questo topic.

Leggi anche le regole per l’approvazione: Regole/Linee guida per approvazione registrazioni

Scusa,
sono un po’ confuso. Non contraddicono le FAQ, queste regole?
Per esempio: " Non devono esserci rumori di sottofondo", ma le FAQ dicono:

Vogliamo che il dataset di Common Voice rifletta la qualità audio che un motore di riconoscimento vocale “ascolterà” nella vita di tutti i giorni, per questo cerchiamo la varietà. Oltre a una comunità diversificata di parlanti, un dataset con qualità audio variabile insegnerà al motore di riconoscimento vocale a gestire varie situazioni del mondo reale, dal parlato di sottofondo al rumore dell’automobile. In poche parole, finché si distinguono le parole la tua registrazione va benissimo per il dataset!

Ciao! Sì e no.
Nel senso che è necessario che ci siano tipi di audio diversificati, ma se l’audio non è distinguibile è praticamente inutile che venga inserito perché sarebbe irriconoscibile (e quindi rifiutato).

Ho inserito la voce “Non devono esserci rumori di sottofondo”, in maniera così drastica, per evitare che la gente inizi a registrare con rumori di sottofondo molto forti, ed è preferibile che non ce ne siano (o che siano molto bassi).
Come puoi leggere nelle linee guida di convalida (Regole/Linee guida per approvazione registrazioni), infatti, le registrazioni con presenza minima di audio sono da accettare (la regola generale è “L’audio di sente anche senza dover leggere la frase?”).

Quelle FAQ sono, più che altro, valide per l’inglese, per esempio, dove c’è un numero altissimo di parlanti e, di conseguenza di registrazioni molto diversificate tra loro. Quindi possono permettersi di avere delle registrazioni “poco chiare”, poiché ne hanno tante altre chiare. I parlanti della lingua italiana sono nettamente inferiori, quindi il nostro obiettivo è, almeno all’inizio, fare in modo che sia possibile riconoscere la voce almeno in condizioni di suono ottimale.

1 Like

Ho ricevuto un feedback molto importante e ritengo che sia utile condividerlo anche qui:
Nel caso in cui, in una frase, dovesse esserci una o più abbreviazioni che non possano essere lette “normalmente”, ovvero così come sono scritte, vi prego di segnalare la frase come “Abbreviazioni presenti” o qualcosa di simile.

Alcuni esempi:
“spa” -> da leggere “spa” oppure “esse-pi-a”
“n.” -> “enne” oppure /n:/
“m” -> “emme” oppure /m:/
“s” -> “esse” oppure /s:/
e così via.

Se non siete sicuri di come leggere un’abbreviazione, usate il pulsante Salta.