Mozilla Common Voice 語音資料集 8.0 成長至 87 種語言,總長度提升30%,即日起開放台語錄音

Mozilla Common Voice 語音資料集 8.0 成長至 87 種語言,總長度提升30%,即日起開放台語錄音

2022/2/18

Common Voice 是 Mozilla 欲使語音科技更加包容的開源專案。該專案收集世界各地的貢獻者錄音,提供含括各國語言,免費且自由開放的語音資料庫,讓任何人都可以用以打造語音技術。Common Voice 於即日起開放台語錄音,歡迎自由參與,一同留下自己的聲音,協助促進台語在語音科技上的發展。

現今的語音技術已不限於智慧音響,如數位銀行、政府服務、健康科技,都越來越常提供語音操作。我們想要確保沒有任何人被忽略,Common Voice 專案是其中的必要一環。

Common Voice 8.0 是現今世界上最多元的開放語音資料集,也是專案史上成長幅度最大的版本。這個成果源自於持續增長且專注的社群,及多個提供資源的合作夥伴 — — 諸如蓋茲基金會、NVIDIA、及德國國際合作機構(GIZ)。世界各地超過二十萬位參與者,共錄製了一千三百萬個錄音檔,總長度達一萬八千小時。台灣的華語錄音則來自將近一千七百位參與者,達八十九小時。

本版本中的新語言包含西非伊博語(Igbo)、印度馬拉提語(Marathi)、印度桑塔利語(Santali / Ol Chiki)、丹麥語、新挪威語、中庫德語、印度馬拉雅拉姆語(Malayalam)、非洲史瓦希利語(Swahili)、俄羅斯厄爾茲亞語(Erzya)、俄羅斯莫克沙語(Moksha)及馬其頓語。

世界各地的社群志工們通力合作、啟發並協助在地的鄉民參與,透過眾包完成這一切。每個參與者都提供了在地的獨特經驗、語言背景及文化知識。在此版本中,我們特別想要表彰以下幾位 Common Voice 語言大使的貢獻:Chris Chinenye Emezue、Joan Montané 及 Nart 於 CC0 語句收集的卓越成果;建立土耳其社群的 Bülent Özden、及致力於提倡 Common Voice 的 Stefania Deleprete。我們也要特別恭喜錄音大幅增長的烏茲別克、盧甘達、賽爾維亞、豪薩(Hausa)、 白俄羅斯及阿布哈茲(Abkhaz)社群。

NVIDIA 等合作夥伴使用本資料集推進其創新的開源計畫,研究科學家 Vitaly Lavrukhin 說:「對於研究社群而言,最新的 Common Voice 資料集超讚。這份資料持續作為 NVIDIA 開源語音辨識模型 NeMo Automatic 的核心,我們也恭喜其團隊達成資料的顯著增長。NVIDIA 將會釋出 NeMo 所使用的資料預處理程式,以協助研究重現。」

蓋茲基金會、德國國際合作機構(GIZ)及英國外交部(FCDO)的協助,也在東非地區透過數位與語音科技的創新。作為社會平等的重要基礎建設。如史瓦希利語,僅在數個月內就收集 500 小時的資料,此成果亦要感謝:肯亞的社群研究員 Britone Mwasaru、坦尚尼亞丹麥難民理事會的 Rebecca Ryakitimbo,以及肯亞的機器學習研究員 Kathleen Siminyu。

此外,歷經四年的努力,經由 Mozilla 台灣社群( https://moztw.org )與 g0v 台灣零時政府( https://g0v.tw )語言相關專案的志工通力合作,Common Voice 也於二月中旬起啟動台語錄音,預期將於今(2022)年 Q3 即會釋出首份包含台語語音的資料集。歡迎大家透過手機與電腦打開 commonvoice.mozilla.org/nan-tw ,一起來錄台語,共同建立開放自由的語音資料庫,促進台語語音輸入等相關技術發展。

共咱鬥相工來錄音,打造高品質、會當公開使用的資料集,協助電腦來學著台灣話!


在這邊免費下載 Common Voice 8.0 資料集:
https://commonvoice.mozilla.org/zh-TW/datasets

立刻來錄台語:
https://commonvoice.mozilla.org/nan-tw/

新聞聯繫與合作:
Irvin Chen ( irvin@moztw.org )
MozTW, Mozilla 台灣社群聯絡人


原文

公開連結:https://medium.com/mozilla-related/taiwanese-in-mozilla-common-voice-af9f067a138b