Common Voice en galego

Pretendo iniciar aquí un fío sobre a colaboración coa recollida de frases en galego para Common Voice.
Actualmente hai menos de 100 frases validadas.
Comecemos pois un longo camiño.

galego (Galician)

  • 165 total sentences.
  • 70 sentences in review.
  • 68 sentences left for you to review.
  • 92 validated sentences.
  • 3 rejected sentences.
4 Likes

Como vai ser a división dialectolóxica? Estaría ben que á hora de gravar a xente tivese claro que non se pretende que crear un modelo perfecto de fala comprensible senón exemplos aceptables de fala analizábel, e que deben manter as súas peculiaridades.
Pregunto tamén porque se me dis a división (que supoño que devería incluír, por exemplo, o eonaviego), podo incluílo xa no mapa que fixen.

1 Like

Hai que estudar ata onde podemos personalizar os datos demográficos:

Para crear a conta pídese
Idade, xénero, acento (e aquí é onde entende que podemos concretar)
Non sei o procedemento pero é obvio que para cada idioma será distinto)

En castelán hai 11
En éuscaro 3
En portugués 0
???

A división dialectolóxica parece que só recolle variantes territoriais cando podería acoller outras tan útiles como entorno rural/urbano ou ámbito socioeconómico (sector primario, sector servizos,… así de primeiras) e os neofalantes

En vista disto, na miña opinión é importante:

  • incluír frases que conteñan a segunda forma do artigo e a forma «ó» das contracións
  • grandes bloques dialectais (costa, centro, oriental)

Coidado con “costa”: a costa norte non debe confundirse co bloque occidental. Eu utilizaría a terminoloxía lingüística, que é coñecida.

Pódense aceptar frases deste tipo?
"
Os cruces principais desta autoestrada son:
Velaquí algunhas das máis comúns:
Entre as distintas regatas que organiza, cabe destacar:
"

Entendo que non.
As frases deben ser completas para que a entoación sexa natural.
Supoño que son derivadas de coller frases grandes e como non caben, cortalas pero se te pos no lugar do que as ve en pantalla, seguro que lle xorde dúbida como esperando algo.

Paréceme ben tamén, pero o problema é que hai trazos do galego tan importantes como a gheada ou o seseo que non coinciden cos bloques dialectolóxicos maiores porque as áreas e bloques defínense máis por morfoloxía que por fonética.
Pero como tamén pretendemos que a IA recoñeza como exactamente equivalentes as pronuncias con e sen -gh- ou seseo, tampouco resultará mal.
En resumo
Bloques Occidental-Central-Oriental e eu engadiría acento “neutral” non específico para aqueles que falan galego académico sen caracterización fonética particular.

Bloques e áreas (versión interactiva con audio)

http://consellodacultura.gal/arquivos/asg/anosafala.php

Está claro que o puxeron a disposición con ánimo de que se aproveitase

Un novo recurso: Arquivo sonoro de Galicia
http://consellodacultura.gal/asg/
A entrevista con Ramón Piñeiro a ver o que dá de si.

“Os contidos dos dominios consellodacultura.org e culturagalega.org quedan sometidos á licenza copyleft”

Entre hoxe e mañá hei ter o ficheiro con frases. Hai que examinar entre 100 e 500 e indicar a porcentaxe delas que habería que rexeitar. Se a porcentaxe é excesiva supoño que pedirán que se refagan os filtros; tamén suporá un maior traballo posterior ao ter que rexeitar gravacións feitas sobre frases incorrectas. Penso que non hai máis lingüistas por aquí, así que che enviarei o ficheiro cando o teña e tamén a unha compañeira que é profe de galego e está incorporando frases mediante a interface. Así seremos tres. Pensei en categorizar os motivos desta maneira:
1 Ortografía incorrecta (p.ex. «cantóu»)
2 Erro tipográfico (p.ex. («caddeira»)
3 Gramática incorrecta (p.ex. «Nos deu medo.»)
4 Vocabulario estranxeiro, fundamentalmente toponimia e antroponimia e non asimilábel (p.ex. «O Johannaeum de Hamburgo» pero non «Washington».)
5 Sen sentido fácil («Comezando coa Sinfonía No.»)

Moi ben.
Acabande meter un cambio no sentence-collect
Agora cando cargas frases podes validalas

Unha dúbida. Existen audiolibros en galego? Igual se podía falar cos autores para que doen os textos á causa. E se é un pouco grande, xa teriamos unha boa cantidade de frases, e sería sinxelo comparar o que entenden co texto real.

As gravacións deben ter un máximo de 14 palabras, así que non serían de utilidade.

Pola túa pregunta, á cabeza vén rapidamente LibriVox: https://librivox.org/search?primary_key=94&search_category=language&search_page=1&search_form=get_results - que ten poemas de Rosalía, Pondal e algún outro.

Nunha busca rápida atopei isto:

E en Amazon a maioría son CD de música pero hai uns (estraños) libros en CD: https://www.amazon.es/Libros-gallego-Audiolibro/s?rh=n%3A665406031%2Cp_n_binding_browse-bin%3A831429031

Estraños porque parece que se van publicar en abril-maio.

Como fonte de son en galego está

Unha mina de expresión oral contemporánea
Pero claro, hai que escoitalos e transcribir as frases.

Tamén pode ser de interese, que distribúe libremente os subtítulos feitos por usuarios, non hai moito pero

"We want you to know that we do not have any copyrighted or illegal content on OpenSubtitles. "

En realidade é o sucesor, dos mesmos autores dun web anterior

https://www.opensubtitles.org/gl

En Opensubtitles hai unha chea de traducións ao galego.
https://www.opensubtitles.org/gl/search/sublanguageid-all/iduser-847695
O cine clube de Compostela ten traducidas centos de films:
https://www.opensubtitles.org/en/search/sublanguageid-all/iduser-427028
Tamén: