請問有沒有參與 Common Voice 計劃的人?

大家好,我叫阿恆,幾個月前從 Mozilla 得知這個計劃,從提供句子、錄音,到審查錄音都做過少少,似乎參與的人不多,因為句子的數量增長不多,錄音的人也少,我已經好幾天沒有錄音可以審查了,自己錄的片段系統又不讓我自己審查(「自我審查」總是不好的,嘿嘿),感覺上香港參與這個計劃的人不多,即使參加的,也不活躍。

有參與這個計劃的可以打個招呼嗎?

你好,這情況應該可能需要新一波宣傳。

審查機制是為了審查收集的聲音句子是否準確,所以只能隨機讓用戶審查。

hi 阿恆

歡迎加入 common voice,我是台灣的志工 Irvin。

common voice 因為授權的需要,使用的句子必須是無版權問題(public domain or cc0)、且為日常口語的語句,因此較為困難,歡迎一起來收集整理。

來源有許多方向,例如台灣的規定是公務人員,例如總統新聞稿是沒有版權,可以研究看看香港現行的規定有沒有相同的規則;此外個人的網路對話紀錄(你自己的?)、常用的俗語、網路成句,整理一下去識別化也是一個來源。

目前的貢獻者大多都在 Telegram 群組上,如果你願意一起加入討論,可以 pm 我或 @sammyfung 你的 t.me/id 讓我們把你加進來。

也可以來台灣版這邊錄普通話的部分;記得先到「設定>帳號資料」設定你的「腔調」為「香港」,讓我們也能建立香港人的普通話口音資料。 https://voice.mozilla.org/zh-TW

Hi Sammy 和 Irvin,很高興認識你們!

語料 (corpus) 不足的問題,香港廣東話比其他語言嚴重,大部分中文語料都是書面語,不是我們日常的口語,廣東話口語的語料很缺乏。我最近輸入了兩段文字,是我給我的孩子的牀邊故事,我首先給自己錄音,然後轉成廣東話文字,老實說過程很累人。

書面語的語料應該容易找得多,例如香港政府一站通 (www.gov.hk),那裏的版權頁說:

…可以任何形式或媒體免費複製和分發,作個人用途或供機構內部使用,惟…複製本不得出售或換取任何利益、得益、利潤或報酬,或用作任何其他商業用途…文字內容必須準確地被複製,並不得用以對政府的任何精神權利有不利影響…必須註明政府為該文字內容的版權擁有人,並註明該文字內容的來源為《香港政府一站通》…

我的理解是應用於 Common Voice 應該沒問題。

其他政府的出版物則有 50-75 年的版權保護,我們動不得。

另外,在電子版香港法例 (www.elegislation.gov.hk/) 的網站內的資料, 容許公眾在非商業用途下,從該網站下載、列印、複製及分發條例。我還沒有時間細看這個網站的內容,估計有機會成為另一個語料主要來源,惟希望內容不會太枯燥無味。

Wikipedia 上的廣東話內容可以用嗎?有甚麼限制?有甚麼困難?

我的確有些有關 Common Voice 的問題想跟其他參與者討論,例如我在網站見到一些句子翻譯得不太準確,在 Pontoon 上查找一下,發覺原來這段翻譯已經用了一、兩年,是不是我太挑剔呢?該如何提出呢?此外,輸入的語料是不是應該加上標點符號呢?用全形還是半形呢?我錄音的時候遇上沒有標點符號的句子,很難決定該用甚麼語氣來讀,但我們日常說話,語氣是很重要的語意提示。另外,審查語料的時候我見到一些有政治主張的句子,從技術的角度我認為應該兼收並蓄,但社群對這個問題是不是有甚麼指引或不成文的約定?諸如此類的問題,我估計大家一定曾經遇上過,也討論過,有機會聽聽大家的意見和經驗便好了。我雖然安裝了 Telegram,但沒有機會用過,我看看在哪裏找到這個 t.me/id。

最後,Irvin 提到收集香港腔調的普通話(台灣不是稱為「國語」的嗎?),唉,連我的孩子們也取笑我的普通話太「普通」,恐怕對你們沒甚麼用處,以前一個國內的同學曾經告訴我,內地人有一句俗語:天不怕,地不怕,最怕廣東人說普通話。你可以想見。

只要有任何限制就不行,包含限制個人用途、限制不能盈利、限制「不能不利政府」都不相容於 Common Voice 的 cc0 授權(愛怎麼用就怎麼用,沒有任何限制)

Wikipedia 是一個特例,Mozilla 法務團隊認為可以使用,但必須透過這一個工具。我們可以提供語言的截取規則,但必須由 Mozilla 員工動手擷取:

Telegram 你可以去 settings > profile,設定 username 然後再告訴我們你的 username 即可;我的是 @irvin ,對應的網址是 t.me/irvin

目前所有的語料都在這,可以去檢查一遍,把你覺得有問題的標出來,我們去開 PR 請求刪除

其他網站翻譯等的東西還是到 telegram 討論,比較多人看吧