Common Voice 語音資料集涵蓋 200 多種語言,包括繁體中文與台灣閩南語。適逢 2 月 21 日國際母語日,平台新增八種台灣原住民族語:泰雅語、布農語、排灣語、魯凱語、萬山語、茂林語、賽德克語及撒奇萊雅語。族語老師與部落耆老已錄製超過 60 小時的語音資料,將於六月開放免費下載。
(台灣,台北|2025 年 2 月 21 日) — 全球數千種語言正面臨消失的危機,語言與文化遺產的保存比以往更加重要。在台灣,一個草根志工社群正在運用 Mozilla 的 Common Voice 平台 — — 全球最大的開放語音資料庫,來保存原住民族語,協助催生更具包容性的語音 AI 解決方案。
Common Voice 是由志工主導的專案,涵蓋 200 多種語言,包括繁體中文與台灣閩南語。適逢 2025 年 2 月 21 日的國際母語日,該平台已新增 8 種台灣原住民族語:泰雅語、布農語、排灣語、魯凱語、萬山語、茂林語、賽德克語及撒奇萊雅語。
來自全台語言推動組織的族語教師,已錄製超過 60 小時的語音資料,在 Mozilla 台灣社群與台灣維基媒體協會的協作下,這些資料將於六月開放免費下載。
「語言承載著我們的身份與文化。當我們將語言帶入科技領域時,我們不僅是在保存詞彙,更是促使文化的生生不息。」 Mozilla 台灣社群負責人 Irvin Chen 表示。
這次台灣原住民族語的加入,是 Mozilla 開放多語言語音倡議(Open Multilingual Speech initiative)的一部分,該計畫致力於支持極低資源社群及原住民族語言。在第一階段,已有來自東南亞及其他地區的 70 多個語言加入。
「我們很高興看到在地社群為自己的語言行動。Common Voice 是屬於這些社群的專案,體現了開源協作與社群參與的精神,以共同塑造更具道德的 Ethical AI」 Mozilla 基金會 Common Voice 產品總監 EM Lewis-Jong 表示。
Common Voice 語音資料集完全開放任何人免費自由使用,目前已被廣泛應用於各種領域,例如開發醫療翻譯軟體,或設計語音應用程式幫助女性行使土地權利等等。
在 RightsCon 與志工社群見面
Mozilla 台灣社群將於 2 月 27 日在 RightsCon Taiwan 設立展示攤位,參與者可在現場深入了解 Common Voice,並親自貢獻自己的聲音。此外,2 月 22 日(週六),台灣語言社群也將參與 g0v 零時政府雙月黑客松。您亦可在以下專案網頁深入了解 Common Voice 在台灣的發展: moztw.org/common-voice
加入行動
在 Mozilla,我們相信每個人都可以影響 AI 的發展。立即加入 Common Voice 全球社群 Discord,或訂閱 Mozilla 基金會電子報,以獲取 Mozilla 計畫的最新資訊!
截至 2/21日止 Common Voice 平台上各台灣族語的錄音進度
賽德克語的錄音介面
Common Voice 台灣專案討論頻道
公開連結:Mozilla 拓展志工主導的語音資料,催生含括台灣原住民族語的 AI - Mozilla related - Medium