Pretendo iniciar aquí un fío sobre a colaboración coa recollida de frases en galego para Common Voice.
Actualmente hai menos de 100 frases validadas.
Comecemos pois un longo camiño.
Como vai ser a división dialectolóxica? Estaría ben que á hora de gravar a xente tivese claro que non se pretende que crear un modelo perfecto de fala comprensible senón exemplos aceptables de fala analizábel, e que deben manter as súas peculiaridades.
Pregunto tamén porque se me dis a división (que supoño que devería incluír, por exemplo, o eonaviego), podo incluílo xa no mapa que fixen.
Hai que estudar ata onde podemos personalizar os datos demográficos:
Para crear a conta pídese
Idade, xénero, acento (e aquí é onde entende que podemos concretar)
Non sei o procedemento pero é obvio que para cada idioma será distinto)
En castelán hai 11
En éuscaro 3
En portugués 0
???
A división dialectolóxica parece que só recolle variantes territoriais cando podería acoller outras tan útiles como entorno rural/urbano ou ámbito socioeconómico (sector primario, sector servizos,… así de primeiras) e os neofalantes
En vista disto, na miña opinión é importante:
incluír frases que conteñan a segunda forma do artigo e a forma «ó» das contracións
grandes bloques dialectais (costa, centro, oriental)
Pódense aceptar frases deste tipo?
"
Os cruces principais desta autoestrada son:
Velaquí algunhas das máis comúns:
Entre as distintas regatas que organiza, cabe destacar:
"
Entendo que non.
As frases deben ser completas para que a entoación sexa natural.
Supoño que son derivadas de coller frases grandes e como non caben, cortalas pero se te pos no lugar do que as ve en pantalla, seguro que lle xorde dúbida como esperando algo.
Paréceme ben tamén, pero o problema é que hai trazos do galego tan importantes como a gheada ou o seseo que non coinciden cos bloques dialectolóxicos maiores porque as áreas e bloques defínense máis por morfoloxía que por fonética.
Pero como tamén pretendemos que a IA recoñeza como exactamente equivalentes as pronuncias con e sen -gh- ou seseo, tampouco resultará mal.
En resumo
Bloques Occidental-Central-Oriental e eu engadiría acento “neutral” non específico para aqueles que falan galego académico sen caracterización fonética particular.
Entre hoxe e mañá hei ter o ficheiro con frases. Hai que examinar entre 100 e 500 e indicar a porcentaxe delas que habería que rexeitar. Se a porcentaxe é excesiva supoño que pedirán que se refagan os filtros; tamén suporá un maior traballo posterior ao ter que rexeitar gravacións feitas sobre frases incorrectas. Penso que non hai máis lingüistas por aquí, así que che enviarei o ficheiro cando o teña e tamén a unha compañeira que é profe de galego e está incorporando frases mediante a interface. Así seremos tres. Pensei en categorizar os motivos desta maneira:
1 Ortografía incorrecta (p.ex. «cantóu»)
2 Erro tipográfico (p.ex. («caddeira»)
3 Gramática incorrecta (p.ex. «Nos deu medo.»)
4 Vocabulario estranxeiro, fundamentalmente toponimia e antroponimia e non asimilábel (p.ex. «O Johannaeum de Hamburgo» pero non «Washington».)
5 Sen sentido fácil («Comezando coa Sinfonía No.»)
Unha dúbida. Existen audiolibros en galego? Igual se podía falar cos autores para que doen os textos á causa. E se é un pouco grande, xa teriamos unha boa cantidade de frases, e sería sinxelo comparar o que entenden co texto real.