Slovak Group - Slovenská skupina

StaH · November 29, 2020, 4:49pm

Hi,

Does anyone work on Slovak language versions?

Do you know any group?

How do you usually communicate?

Ahoj,
Pracuje už niekto na Slovenčine?
Viete o nejakej skupine?
Ako spolu obvykle komunikujete?

StaH · December 1, 2020, 7:17pm

Je tu niekto schopný a ochotný pridávať a schvaľovat slovenské vety?
https://commonvoice.mozilla.org/sentence-collector/#/

Adrijaned · December 3, 2020, 8:37am

Ahoj,
osobně bych doporučil spíš začít s automatickou extrakcí vět z Wikipédie přidáním skriptu do https://github.com/common-voice/cv-sentence-extractor/tree/main/src/rules, český by přitom pravděpodobně šel považovat za slušný základ. Nebo extrakcí vět z Europarl korpusu (https://www.statmt.org/europarl/), pro inspiraci nabízím opět český: https://github.com/mozilla/common-voice/pull/2729
Cesta nástroje pro sběr vět se bohužel ukázala jako příliš zdlouhavá pro spouštění jazyka, spustit tímhle způsobem češtinu trvalo déle než rok od zahájení ověřování vět.

Adrijaned · December 3, 2020, 8:40am

A ještě ke komunikačním kanálu - tady je většinou fajn. O slovenské komunitě nevím, ale pokud budeš cokoliv potřebovat s čím může pomoct česká, tak #mozillacz:mozilla.org na Matrixu, nebo t.me/MozillaCZ na Telegramu

StaH · December 6, 2020, 9:38am

Ahoj,
vďaka za info a ochotu.
Pokusím sa naštudovať a prípadne to realizovať, určite sa ozvem s prosbou o rady.
Ešte ma napadlo, či by nebolo možné použiť ako zdroj textov Slovenský národný korpus.
https://korpus.sk/WordNet.html
Táto čásť je prístupná pod CC licenciou:
https://korpus.sk/attachments/WordNet/sk-wn-2013-01-23.txt.gz

StaH · December 7, 2020, 3:31pm

Ten spomínaný korpus postupne ručne upravujem - čistím od duplicit a vkládam sem https://commonvoice.mozilla.org/sentence-collector/#/
Bude to možné nejako hromadne schváliť?

Adrijaned · December 7, 2020, 4:06pm

Ahoj,
Common Voice vyžaduje na všechny texty striktně licenci CC0, to jest volné dílo, zatímco podle odkazu se zdá že korpus je distribuovaný pod CC attribution-share alike. Pokud tedy někde není skrytá nějaká licenční informace, kterou jsem přehlídl, nebo nemáš výslovné svolení od autora, věty z tohoto korpusu nemohou být zařazeny do Common Voice vůbec, a pokud již byly nějaké vloženy, budou muset být opět odstraněny! Obecně poté, pokud se provádí větší import z nějaké externí databáze, tak se neprovádí přes nástroj pro sběr vět, protože pro to není moc uzpůsobený, ale dělá se přímo skrz pull request do hlavního repozitáře Common Voice, kde se poté provede zjednodušená kontrola kvality.

StaH · December 7, 2020, 4:16pm

OK, vďaka to som teda prirobyl iba niekomu prácu…
Je to ale ozdrojované, takže všetko z daného zdroja asi pojde zmazať pomerne ľahko.

Takže cesta fakt vedie len cez úpravu toho skriptu pre Wiki. Toto asi nebude veľky problém.
Nie som ale programátor ani angličtinár, tak som veľmi nepobral čo a ako potom s tým úpravených skriptom…

Adrijaned · December 7, 2020, 11:40pm

Mohl bych se zeptat, jaký text zdroje používals pro ten nástroj pro sbět vět? Spravené bych to měl mít za chvilku.
Co se týče wikiextractoru, vytvořil jsem https://github.com/common-voice/cv-sentence-extractor/pull/132, hlavně budu od tebe potřebovat, abys na prvním řádku souboru v https://github.com/common-voice/cv-sentence-extractor/pull/132/files zkontroloval, že tam jsou všechna a pouze písmena slovenské abecedy vč. diakritiky (změkčené l například nebo co to je za písmeno?), a za abbreviation_patterns že jsou vypsané všechny časté slovenské zkratky, co by se ve větách neměly objevit. V https://github.com/common-voice/cv-sentence-extractor/actions/runs/406966303 je potom v souboru extraction ke stažení vzorek z vět vyextrahovaných skriptem, tak, jak je.

StaH · December 8, 2020, 2:51pm

myslím, že tam byl jen odkaz na zdroj
https://korpus.sk/attachments/WordNet/sk-wn-2013-01-23.txt.gz

Ten súbor by mohl byť takto:
allowed_symbols_regex="[A-Za-zěščŕřžýáíéóôďťňúůĺľÁÄĚŠČŔŘŽÝÁÍÉÓÔĎŤŇĹĽäöüÚ‚–\. “„“]”
matching_symbols = [["„", ““”]]
min_trimmed_length = 6
min_word_count = 1
max_word_count = 14
min_characters = 0
may_end_with_colon = false
quote_start_with_letter = true
needs_punctuation_end = true
needs_letter_start = true
needs_uppercase_start = true
even_symbols = ["""]
broken_whitespace = [" “, " ,”, " .", " ?", " !", " ;" :"]
abbreviation_patterns = ["[A-ZĹĽĚŠČŔŘŽÝÁÍÉĎŤŇÓÔÚ]+\.[a-z][A-ZĹĽĚŠČŔŘŽÝÁÍÉĎŤŇÓÔÚ]+", “a i\.”, “a pod\.”, “atď\.”, “\baj\.”, "tj\

.", “\brec\.”, “[nN]apr\.”,
“”."", “\s[^aikosuvzáó]\s”, “zkr\.”, “[Tt]zv\.”, “[dD]r\.”, “\b[aAeE]d\.”, “\b[sS]?[tT]r\.”, “[aA]rch\.”, “Inc\.”, “Ltd\.”, “[pP]opr\.”,
“\b[fF]r\.”, “\b[A-Z]+DR\b”, “[pP]ozn\.”, “[sS]rov\.”, “\b[eE][a-z]\.”, “[zZ]ejm\.”, “[JS]r\.”, “\b[lL][lL]”,
“Mgr\.”, “[mM]j\.”, “\b[sS]tol\.”, “\b[pP]ol\.”, “Ing\.”, “[cCkK]pt\.”, “\b[lL]t\.”, “Mr?s?\.”, “\s[^\s]{1,2}\.”, “\bviz\.”, “\b[sS]at\.”]

StaH · December 8, 2020, 3:34pm

Tak som preletel ten súbor extraction, vyzerá celkom zdravo, až sa doplnia tie SK písmena s interpunkciou (viz. vyšie), určite to bude funkčné…
A vďaka za pomoc!

Adrijaned · December 9, 2020, 3:16pm

Ahoj, na https://gist.github.com/Adrijaned/500cfc6c38044be9995cd88da8540580 je ještě (ke stažení) seznam slov i s četností výskytu na slovenské wikipedii. Spodní část toho seznamu bude vyříznuta a použita jako blocklist; seznam slov které by se neměly objevit ve výsledných větách, ať už pro to že jsou dost atypické, s gramatickými chybami, v jiném jazyce nebo z jakéhokoliv jiného důvodu. Potřeboval bych od tebe, abys mi řekl od jaké četnosti výskytu dolů bych měl ten seznam zaříznout, aby se tam už moc nevyskytovaly takto “špatná” slova (ale aby zase zůstalo co nejvíc “dobrých” slov) (procházet ručně bych to nedoporučoval, přec jen je tam těch slov kolem 975 000). Celkem častá a doporučovaná hodnota četnosti je myslím 100, ale to se může lišit wikipedii od wikipedie.

StaH · December 9, 2020, 3:56pm

Ahoj, ta 100 je úplne vpoho, díval som sa nižšie a hluposti sa začínajú objavovať niekde cca od 50 dolu, takže 55 už je asi OK, inak ako hranica sa dá použiť čokoľvek medzi 60 - 100

Adrijaned · December 9, 2020, 6:32pm

Super, je to tam, teď to ještě musí někdo (ideálně alespoň tři různí lidi) zkontrolovat, že ty vyextrahované věty jsou vesměs správně.

StaH · December 9, 2020, 7:06pm

Paráda, vďaka za pomoc!
Ten vyextrahovaný obsah sa teraz objavi tuto?
https://commonvoice.mozilla.org/sentence-collector/#/review
Či je na to iný nástroj a postup?

Adrijaned · December 9, 2020, 9:00pm

Zase soubor extraction na https://github.com/common-voice/cv-sentence-extractor/actions/runs/411290813, je potřeba aby aspoň dva/tři lidé každý zkontrolovali kolem 300-500 náhodných vět z toho souboru a dali k tomu komentář s výsledkem kontroly na https://github.com/common-voice/cv-sentence-extractor/pull/132. V podstatě jak velký vzorek vět byl zkontrolován a kolik problematických vět bylo i přes to nalezeno - ideálně by se to číslo mělo pohybovat max v řádech jednotek procent a spíš drobné problémy než závažné.

Topic		Replies	Views
Bulk sentences submission from Wikipedia Common Voice sentence-collection	4	608	August 12, 2024
Question about CV Sentence Extractor quality and your experience Common Voice	18	1566	August 30, 2023
[Technical feedback needed] Wikipedia extractor script beta Common Voice sentence-collection , feedback	76	8673	July 1, 2020
Polish sentences concerns Common Voice sentence-collection , issue , dataset	20	3289	May 4, 2020
Using the Europarl Dataset with sentences from speeches from the European Parliament Common Voice sentence-collection	61	6049	March 28, 2023

Slovak Group - Slovenská skupina

Related topics