Common Voice Türkçe'nin durumu

Vikipedi’ye göre Türkçe, en çok konuşulan diller arasında 13. sıradadır. Dünya nüfusunun yaklaşık %1’i (79.4 milyon) anadili olarak Türkçe’yi konuşur. Bu nüfus Almanca, Fransızca, İtalyanca gibi batı dillerinden daha fazladır.

Öte yandan Almanca, Fransızca ve hatta Katalanca gibi diller Common Voice’da Türkçe’nin çok çok önünde gitmektedir. Bunu da daha çok gönüllünün daha çok katkı vermesiyle sağladılar.

Veri kümesindeki gelişim

Aşağıdaki tabloda yayınlanan veri kümelerinde Türkçe’nin zaman içindeki gelişimi bulabilirsiniz.

Buradan bazı saptamalar yapmamız mümkün:

  • Kayıt sayımız ve onaylanmış kayıt sayımız çok düşük. Her ne kadar yaklaşık 6 ayda bir yapılan derlemelerde yaklaşık %50 büyüme görülse de büyük hedef olan 10.000 saatin sadece binde 3’üne ulaşmış durumdayız. (Ek not: 2020 yılının ikinci yarısındaki duraklamanın Mozilla’da gerçekleşen yapısal değişiklikler sonucu ortaya çıkan belirsizlik nedeniyle olduğu tahmin edilmektedir).
  • Kayıt sayımız ve onaylanan kayıt sayısı arasındaki makas çok açılmıştır. Bunun temel nedeni katkı veren gönüllülerin daha çok kayıt yapmaya yönelmesi, yapılan kayıtları dinleyerek onaylama sürecinin daha az ilgi çekmesidir. Yapılan kayıtlardaki hata oranının (dolayısı ile reddedilmelerinin) artması da nedenlerden biri olabilir.
  • Bir çok dilde olduğu gibi genç erkekler baskındır. Öte yandan gerçekten çalışan bir sistem için eşit dağılım gerekmektedir. Dolayısı ile önceliğimiz şu an %6 olan kadın sayısının, 40 yaş üstünde olan gönüllü sayısının arttırılması yönünde olmalıdır.

Ne için ne gerekiyor?

Common Voice ilk başladığında (2018) gereklilikler aşağıdaki şekilde tanımlanmıştı, hala web sitesinde bu kaynaklar duruyor ama tam geçerli değiller.

Bunu özetlersek:

  • 1-300 saat: Basit, sınırlı sözlüğe sahip komut tabanlı sistemler.
  • 300-1.000 saat: Sınırlı sözlüğe sahip sürekli konuşma algılama (ör. teknik)
  • 2.000 saat: İnsana yakın seviyede başarımda genel otomatik konuşma algılama (dile göre değişiyor bu süre).
  • 10.000 saat: Çok yüksek kalitede, genel, büyük sözlük, sürekli konuşma algılama.

O zamandan bugüne makine öğrenme algoritmalarında büyük gelişmeler oldu ve bu süreler epey azaldı. Her dil için farklı olmakla birlikte 300 saatlik kaydın yeterli olabileceği görülüyor.

Son yayınlanan Corpus 30 saat kadar onaylı kayıt içeriyor. Belki şu tür adım adım gelişen hedefler koymamızda fayda olabilir:

  • 100 saat
  • 300 saat
  • 1000 saat

Her aşamada performansın test edilip bu hedefleri güncellemek gerekiyor tabii ki.

Corpus 7’ye göre ortalama kayıt süresi 3.75 saniye… Basit bir hesapla 1.000 saat için yaklaşık 850.00 onaylanmış cümle gerektiği ortaya çıkıyor. Bu büyüklüğe birkaç kişilik bir gönüllü grubu ile ulaşılması olanaksız. Bir kişinin uzun süreye yayarak 1000 kayıt yapması yerine 100 kişinin kısa zamanda ortalama 10 kayıt yapması hem hızı arttıracak, hem de çok önemli olan çeşitliliği (yaş, cinsiyet, alt-kültür/ağız/lehçe vb) sağlayacaktır.

Doğrulanmamış kayıt da 37 saat civarındaydı… Son Corpus’un üretildiği tarih 21 Temmuz 2021…

19 Eylül 2021 itibarı ile durum şu:
image

Görüleceği gibi yaklaşık Mart-Temmuz arasında hızlı giden kayıtlar sonrasında yavaşlamış durumda. Onaylama süreçleri ise lineer olarak artmaya devam ediyor, aradaki makas da kapanıyor…

Son Corpus yayınından sonra aylık ortalama olarak onaylı seste yaklaşık %6.7/ay, ses kayıtlarında da %2.7/ay artış hızı söz konusu. Bu da yukarıdaki tabloda verilen aylık değerlerin epey altında…

Birkaç kişinin çok fazla kayıt yapması hiç bir şekilde iyi değil. Bir çok model bir kişiden sadece tek bir sesin alınmasına dayalı. Çünkü fazla aynı ses sistemlerin “biased” (önyargılı) eğitilmesine neden oluyor. Bireylerin ses kaydında yarışmayı durdurması ve diğer alanlarda yoğunlaşması lazım:

  • Yeni gönüllüler bulunması. Özellikle kadın sesi, daha ileri yaşlardaki insanların sesi lazım. Bu yeni sesler hem veri setini iyileştirecekler hem de hızımızın artmasını sağlayacaklar. Bu konuda Ekim başında tüm Common Voice için geniş çaplı bir kampanya başlatılması planlanıyor.
  • CC-0 eserler bulunması, cümleler arasına eklenmesi ve kontrol edilmesi.
  • Bekleyen kayıtların dinlenerek kontrolü.

2021 sonunda gerçekleştirdiğimiz kampanya ile birlikte onaylanmış kayıt sayı ve süresini iki katından fazlaya çıkartabildik. Tüm süreci FOSDEM’22’de gerçekleştirdiğimiz bir sunum ile paylaştık.

Detaylı bilgiye oradan erişebilirsiniz:
https://fosdem.org/2022/schedule/event/mozilla_language_common_voice

Sunumu YouTube kanalımızda da yayınladık…

Şu anda çalışmalarımızı v9.0 üzerinde yoğunlaştırdık, güncellemeleri paylaşacağız.