Hi,
Does anyone work on Slovak language versions?
Do you know any group?
How do you usually communicate?
Ahoj,
Pracuje už niekto na Slovenčine?
Viete o nejakej skupine?
Ako spolu obvykle komunikujete?
Hi,
Does anyone work on Slovak language versions?
Do you know any group?
How do you usually communicate?
Ahoj,
Pracuje už niekto na Slovenčine?
Viete o nejakej skupine?
Ako spolu obvykle komunikujete?
Je tu niekto schopný a ochotný pridávať a schvaľovat slovenské vety?
https://commonvoice.mozilla.org/sentence-collector/#/
Ahoj,
osobně bych doporučil spíš začít s automatickou extrakcí vět z Wikipédie přidáním skriptu do https://github.com/common-voice/cv-sentence-extractor/tree/main/src/rules, český by přitom pravděpodobně šel považovat za slušný základ. Nebo extrakcí vět z Europarl korpusu (https://www.statmt.org/europarl/), pro inspiraci nabízím opět český: https://github.com/mozilla/common-voice/pull/2729
Cesta nástroje pro sběr vět se bohužel ukázala jako příliš zdlouhavá pro spouštění jazyka, spustit tímhle způsobem češtinu trvalo déle než rok od zahájení ověřování vět.
A ještě ke komunikačním kanálu - tady je většinou fajn. O slovenské komunitě nevím, ale pokud budeš cokoliv potřebovat s čím může pomoct česká, tak #mozillacz:mozilla.org na Matrixu, nebo t.me/MozillaCZ na Telegramu
Ahoj,
vďaka za info a ochotu.
Pokusím sa naštudovať a prípadne to realizovať, určite sa ozvem s prosbou o rady.
Ešte ma napadlo, či by nebolo možné použiť ako zdroj textov Slovenský národný korpus.
https://korpus.sk/WordNet.html
Táto čásť je prístupná pod CC licenciou:
https://korpus.sk/attachments/WordNet/sk-wn-2013-01-23.txt.gz
Ten spomínaný korpus postupne ručne upravujem - čistím od duplicit a vkládam sem https://commonvoice.mozilla.org/sentence-collector/#/
Bude to možné nejako hromadne schváliť?
Ahoj,
Common Voice vyžaduje na všechny texty striktně licenci CC0, to jest volné dílo, zatímco podle odkazu se zdá že korpus je distribuovaný pod CC attribution-share alike. Pokud tedy někde není skrytá nějaká licenční informace, kterou jsem přehlídl, nebo nemáš výslovné svolení od autora, věty z tohoto korpusu nemohou být zařazeny do Common Voice vůbec, a pokud již byly nějaké vloženy, budou muset být opět odstraněny! Obecně poté, pokud se provádí větší import z nějaké externí databáze, tak se neprovádí přes nástroj pro sběr vět, protože pro to není moc uzpůsobený, ale dělá se přímo skrz pull request do hlavního repozitáře Common Voice, kde se poté provede zjednodušená kontrola kvality.
OK, vďaka to som teda prirobyl iba niekomu prácu…
Je to ale ozdrojované, takže všetko z daného zdroja asi pojde zmazať pomerne ľahko.
Takže cesta fakt vedie len cez úpravu toho skriptu pre Wiki. Toto asi nebude veľky problém.
Nie som ale programátor ani angličtinár, tak som veľmi nepobral čo a ako potom s tým úpravených skriptom…
Mohl bych se zeptat, jaký text zdroje používals pro ten nástroj pro sbět vět? Spravené bych to měl mít za chvilku.
Co se týče wikiextractoru, vytvořil jsem https://github.com/common-voice/cv-sentence-extractor/pull/132, hlavně budu od tebe potřebovat, abys na prvním řádku souboru v https://github.com/common-voice/cv-sentence-extractor/pull/132/files zkontroloval, že tam jsou všechna a pouze písmena slovenské abecedy vč. diakritiky (změkčené l například nebo co to je za písmeno?), a za abbreviation_patterns že jsou vypsané všechny časté slovenské zkratky, co by se ve větách neměly objevit. V https://github.com/common-voice/cv-sentence-extractor/actions/runs/406966303 je potom v souboru extraction
ke stažení vzorek z vět vyextrahovaných skriptem, tak, jak je.
myslím, že tam byl jen odkaz na zdroj
https://korpus.sk/attachments/WordNet/sk-wn-2013-01-23.txt.gz
Ten súbor by mohl byť takto:
allowed_symbols_regex="[A-Za-zěščŕřžýáíéóôďťňúůĺľÁÄĚŠČŔŘŽÝÁÍÉÓÔĎŤŇĹĽäöüÚ‚–\. “„“]”
matching_symbols = [["„", ““”]]
min_trimmed_length = 6
min_word_count = 1
max_word_count = 14
min_characters = 0
may_end_with_colon = false
quote_start_with_letter = true
needs_punctuation_end = true
needs_letter_start = true
needs_uppercase_start = true
even_symbols = ["""]
broken_whitespace = [" “, " ,”, " .", " ?", " !", " ;" :"]
abbreviation_patterns = ["[A-ZĹĽĚŠČŔŘŽÝÁÍÉĎŤŇÓÔÚ]+\.[a-z][A-ZĹĽĚŠČŔŘŽÝÁÍÉĎŤŇÓÔÚ]+", “a i\.”, “a pod\.”, “atď\.”, “\baj\.”, "tj\
.", “\brec\.”, “[nN]apr\.”,
“”."", “\s[^aikosuvzáó]\s”, “zkr\.”, “[Tt]zv\.”, “[dD]r\.”, “\b[aAeE]d\.”, “\b[sS]?[tT]r\.”, “[aA]rch\.”, “Inc\.”, “Ltd\.”, “[pP]opr\.”,
“\b[fF]r\.”, “\b[A-Z]+DR\b”, “[pP]ozn\.”, “[sS]rov\.”, “\b[eE][a-z]\.”, “[zZ]ejm\.”, “[JS]r\.”, “\b[lL][lL]”,
“Mgr\.”, “[mM]j\.”, “\b[sS]tol\.”, “\b[pP]ol\.”, “Ing\.”, “[cCkK]pt\.”, “\b[lL]t\.”, “Mr?s?\.”, “\s[^\s]{1,2}\.”, “\bviz\.”, “\b[sS]at\.”]
Tak som preletel ten súbor extraction, vyzerá celkom zdravo, až sa doplnia tie SK písmena s interpunkciou (viz. vyšie), určite to bude funkčné…
A vďaka za pomoc!
Ahoj, na https://gist.github.com/Adrijaned/500cfc6c38044be9995cd88da8540580 je ještě (ke stažení) seznam slov i s četností výskytu na slovenské wikipedii. Spodní část toho seznamu bude vyříznuta a použita jako blocklist; seznam slov které by se neměly objevit ve výsledných větách, ať už pro to že jsou dost atypické, s gramatickými chybami, v jiném jazyce nebo z jakéhokoliv jiného důvodu. Potřeboval bych od tebe, abys mi řekl od jaké četnosti výskytu dolů bych měl ten seznam zaříznout, aby se tam už moc nevyskytovaly takto “špatná” slova (ale aby zase zůstalo co nejvíc “dobrých” slov) (procházet ručně bych to nedoporučoval, přec jen je tam těch slov kolem 975 000). Celkem častá a doporučovaná hodnota četnosti je myslím 100, ale to se může lišit wikipedii od wikipedie.
Ahoj, ta 100 je úplne vpoho, díval som sa nižšie a hluposti sa začínajú objavovať niekde cca od 50 dolu, takže 55 už je asi OK, inak ako hranica sa dá použiť čokoľvek medzi 60 - 100
Super, je to tam, teď to ještě musí někdo (ideálně alespoň tři různí lidi) zkontrolovat, že ty vyextrahované věty jsou vesměs správně.
Paráda, vďaka za pomoc!
Ten vyextrahovaný obsah sa teraz objavi tuto?
https://commonvoice.mozilla.org/sentence-collector/#/review
Či je na to iný nástroj a postup?
Zase soubor extraction na https://github.com/common-voice/cv-sentence-extractor/actions/runs/411290813, je potřeba aby aspoň dva/tři lidé každý zkontrolovali kolem 300-500 náhodných vět z toho souboru a dali k tomu komentář s výsledkem kontroly na https://github.com/common-voice/cv-sentence-extractor/pull/132. V podstatě jak velký vzorek vět byl zkontrolován a kolik problematických vět bylo i přes to nalezeno - ideálně by se to číslo mělo pohybovat max v řádech jednotek procent a spíš drobné problémy než závažné.