Regole/Linee guida per registrare frasi

Come promesso ecco qui di seguito anche le indicazioni, linee guida e suggerimenti su come registrare le frasi su Common Voice.

Prima di iniziare a registrare la frase consiglio di leggerla una volta in mente, così da non dover sbagliare parola/e durante la registrazione.

  • Timbro di voce normale: Parla come se davanti a te ci fosse una persona, quindi non urlare e non sussurrare
  • Velocità di lettura normale: Quando registri una frase non leggere troppo velocemente, né troppo lentamente. Parla come quando hai una persona davanti, e quindi deve riuscire a capire ciò che dici
  • Parla in maniera chiara: Il tuo accento, la tua cadenza sono assolutamente ben accetti! Ma, comunque, finisci di pronunciare tutte le lettere di tutte le parole, non ti fermare a metà. Anche le finali sono importanti!
  • Non leggere la punteggiatura, serve solo per farti capire meglio il senso della frase così da poterla leggere più comodamente. Common Voice non interpreta l’intonazione, quindi volendo si potrebbe leggerla anche come un robot
  • Non devono esserci rumori di sottofondo (o se presenti non devono sovrastare l’audio) altrimenti la registrazione non è accettabile (consiglio: lasciare il televisore (TV) spento o con volume disattivato durante le registrazioni; non registrare se si è in una stanza con altre persone che, a loro volta, parlano: cercare un posto più appartato/silezioso)
  • Se la frase presenta molte parole straniere (diciamo più del 50% della frase), segnala la frase come Lingua differente
  • Regola sulle abbreviazione: Leggi questo commento in questo thread

Se hai dei dubbi puoi scrivere in questo topic.

Leggi anche le regole per l’approvazione: Regole/Linee guida per approvazione registrazioni

Domande frequenti

  • Come pronunciare le parole straniere? (nello specifico inglesi)
    Dal momento che queste sono le linee guida per Common Voice in italiano, posso dirmi con certezza che non è necessario pronunciare le parole inglesi con la pronuncia RP (ovvero quella prima di accento e perfetta britannica). Infatti, è sufficiente pronunciare le parole “all’italiana” (per es. pronunciando tutte le r molto marcate, e così via).
  • Devo leggere anche la punteggiatura?
    Assolutamente no. Non bisogna leggere i segni di punteggiatura (,, :, ., etc.) infatti servono solo a dare senso e intonazione alla frase, affinché la lettura avvenga in maniera più naturale.
  • Come comportarsi con le abbreviazioni?
    Nel caso in cui, in una frase, dovesse esserci una o più abbreviazioni che non possano essere lette “normalmente”, ovvero così come sono scritte, è necessario segnalare la frase come “Abbreviazioni presenti” o qualcosa di simile.
    Alcuni esempi:
    “spa” -> da leggere “spa” oppure “esse-pi-a”
    “n.” -> “enne” oppure (IPA:) /n:/
    “m” -> “emme” oppure (IPA:) /m:/
    “s” -> “esse” oppure (IPA:) /s:/
    e così via.
    Se non si è sicuri di come leggere un’abbreviazione, usare il pulsante Salta .

Scusa,
sono un po’ confuso. Non contraddicono le FAQ, queste regole?
Per esempio: " Non devono esserci rumori di sottofondo", ma le FAQ dicono:

Vogliamo che il dataset di Common Voice rifletta la qualità audio che un motore di riconoscimento vocale “ascolterà” nella vita di tutti i giorni, per questo cerchiamo la varietà. Oltre a una comunità diversificata di parlanti, un dataset con qualità audio variabile insegnerà al motore di riconoscimento vocale a gestire varie situazioni del mondo reale, dal parlato di sottofondo al rumore dell’automobile. In poche parole, finché si distinguono le parole la tua registrazione va benissimo per il dataset!

Ciao! Sì e no.
Nel senso che è necessario che ci siano tipi di audio diversificati, ma se l’audio non è distinguibile è praticamente inutile che venga inserito perché sarebbe irriconoscibile (e quindi rifiutato).

Ho inserito la voce “Non devono esserci rumori di sottofondo”, in maniera così drastica, per evitare che la gente inizi a registrare con rumori di sottofondo molto forti, ed è preferibile che non ce ne siano (o che siano molto bassi).
Come puoi leggere nelle linee guida di convalida (Regole/Linee guida per approvazione registrazioni), infatti, le registrazioni con presenza minima di audio sono da accettare (la regola generale è “L’audio di sente anche senza dover leggere la frase?”).

Quelle FAQ sono, più che altro, valide per l’inglese, per esempio, dove c’è un numero altissimo di parlanti e, di conseguenza di registrazioni molto diversificate tra loro. Quindi possono permettersi di avere delle registrazioni “poco chiare”, poiché ne hanno tante altre chiare. I parlanti della lingua italiana sono nettamente inferiori, quindi il nostro obiettivo è, almeno all’inizio, fare in modo che sia possibile riconoscere la voce almeno in condizioni di suono ottimale.

1 Like

Ho ricevuto un feedback molto importante e ritengo che sia utile condividerlo anche qui:
Nel caso in cui, in una frase, dovesse esserci una o più abbreviazioni che non possano essere lette “normalmente”, ovvero così come sono scritte, vi prego di segnalare la frase come “Abbreviazioni presenti” o qualcosa di simile.

Alcuni esempi:
“spa” -> da leggere “spa” oppure “esse-pi-a”
“n.” -> “enne” oppure /n:/
“m” -> “emme” oppure /m:/
“s” -> “esse” oppure /s:/
e così via.

Se non siete sicuri di come leggere un’abbreviazione, usate il pulsante Salta.

Mi permetto di aggiungere un commento perché ho letto dei suggerimenti sulle abbreviazioni che ritengo sbagliati.
Se lo scopo è di insegnare all’intelligenza artificiale come i parlanti usano la lingua, allora l’unico criterio da seguire è la regola che si segue normalmente nel singolo caso in questione.
Ad esempio per abbreviazioni come “art.” e "artt. " o “S.” e “Ss” nessun parlante le usa così come sono, ma tutti le leggono per intere (chi studia paleografia dice che le abbreviazioni “si sciolgono” ) , quindi “articolo”, “articoli”, San o Santo, Santi. Basta andare a sentire un giudice che emette una sentenza o un prete che dice la messa per rendersene conto. Del resto se io dovessi chiedere a google che santo è oggi, non direi certo “che s è oggi?”, né per sapere che dice l’articolo 9 della Costituzione chiederei “qual è l’art. 9 della Cost?”
Diverso è per le abbreviazioni tipo gli acronimi, che vengono usati come nomi. Nessuno leggendo Fiat direbbe “fabbrica italiana automobili Torino”, ma nemmeno “effe i. a. t” . Quindi bisogna usare il senso comune, e all’occorrenza un dizionario.

Ha ragione, tuttavia qui non si tratta di capire come gli utenti parlano sul serio (quello è lato DeepSpeech), qui si tratta di leggere correttamente quanto scritto.

Sarà premura dell’algoritmo “STT”/“TTS” combinata alla sua implementazione convertire, poi, “articolo” in “art.” (e vic.) e così via.

Concordo con l’uso del dizionario, non solo per Common Voice, ma anche nella vita quotidiana :slight_smile:
Concordo, inoltre, con il “senso comune”, anche se purtroppo alle volte è necessario, quantomeno, dare delle linee guida affinché l’utente si senta a suo agio.
Inoltre, dal momento che l’italiano non ha poi così tanti lettori/“parlanti”, sarebbe molto più opportuno non usare le abbreviazione e migliorare il tutto solo successivamente, implementando queste ultime.

Per citare il caso di Google: agli albori leggeva “SS” piuttosto che “strada statale”, e così via… perché questi sono “solo” miglioramenti :slight_smile:

Personalmente consiglio, se la frase da registrare presenta troppe abbreviazioni, di segnalare quella frase

Va bene, l’importante è che non passi il messaggio che dire art. in italiano sia corretto. Segnalerò le frasi problematiche.

Assolutamente no. In italiano le abbreviazioni vanno usate solo nello scritto (se necessario e se non crea confusione). Su questo mi trovi perfettamente d’accordo