Common Voice Türkçe'nin durumu

Vikipedi’ye göre Türkçe, en çok konuşulan diller arasında 13. sıradadır. Dünya nüfusunun yaklaşık %1’i (79.4 milyon) anadili olarak Türkçe’yi konuşur. Bu nüfus Almanca, Fransızca, İtalyanca gibi batı dillerinden daha fazladır.

Öte yandan Almanca, Fransızca ve hatta Katalanca gibi diller Common Voice’da Türkçe’nin çok çok önünde gitmektedir. Bunu da daha çok gönüllünün daha çok katkı vermesiyle sağladılar.

Veri kümesindeki gelişim

Aşağıdaki tabloda yayınlanan veri kümelerinde Türkçe’nin zaman içindeki gelişimi bulabilirsiniz.

Buradan bazı saptamalar yapmamız mümkün:

  • Kayıt sayımız ve onaylanmış kayıt sayımız çok düşük. Her ne kadar yaklaşık 6 ayda bir yapılan derlemelerde yaklaşık %50 büyüme görülse de büyük hedef olan 10.000 saatin sadece binde 3’üne ulaşmış durumdayız. (Ek not: 2020 yılının ikinci yarısındaki duraklamanın Mozilla’da gerçekleşen yapısal değişiklikler sonucu ortaya çıkan belirsizlik nedeniyle olduğu tahmin edilmektedir).
  • Kayıt sayımız ve onaylanan kayıt sayısı arasındaki makas çok açılmıştır. Bunun temel nedeni katkı veren gönüllülerin daha çok kayıt yapmaya yönelmesi, yapılan kayıtları dinleyerek onaylama sürecinin daha az ilgi çekmesidir. Yapılan kayıtlardaki hata oranının (dolayısı ile reddedilmelerinin) artması da nedenlerden biri olabilir.
  • Bir çok dilde olduğu gibi genç erkekler baskındır. Öte yandan gerçekten çalışan bir sistem için eşit dağılım gerekmektedir. Dolayısı ile önceliğimiz şu an %6 olan kadın sayısının, 40 yaş üstünde olan gönüllü sayısının arttırılması yönünde olmalıdır.

Ne için ne gerekiyor?

Common Voice ilk başladığında (2018) gereklilikler aşağıdaki şekilde tanımlanmıştı, hala web sitesinde bu kaynaklar duruyor ama tam geçerli değiller.

Bunu özetlersek:

  • 1-300 saat: Basit, sınırlı sözlüğe sahip komut tabanlı sistemler.
  • 300-1.000 saat: Sınırlı sözlüğe sahip sürekli konuşma algılama (ör. teknik)
  • 2.000 saat: İnsana yakın seviyede başarımda genel otomatik konuşma algılama (dile göre değişiyor bu süre).
  • 10.000 saat: Çok yüksek kalitede, genel, büyük sözlük, sürekli konuşma algılama.

O zamandan bugüne makine öğrenme algoritmalarında büyük gelişmeler oldu ve bu süreler epey azaldı. Her dil için farklı olmakla birlikte 300 saatlik kaydın yeterli olabileceği görülüyor.

Son yayınlanan Corpus 30 saat kadar onaylı kayıt içeriyor. Belki şu tür adım adım gelişen hedefler koymamızda fayda olabilir:

  • 100 saat
  • 300 saat
  • 1000 saat

Her aşamada performansın test edilip bu hedefleri güncellemek gerekiyor tabii ki.

Corpus 7’ye göre ortalama kayıt süresi 3.75 saniye… Basit bir hesapla 1.000 saat için yaklaşık 850.00 onaylanmış cümle gerektiği ortaya çıkıyor. Bu büyüklüğe birkaç kişilik bir gönüllü grubu ile ulaşılması olanaksız. Bir kişinin uzun süreye yayarak 1000 kayıt yapması yerine 100 kişinin kısa zamanda ortalama 10 kayıt yapması hem hızı arttıracak, hem de çok önemli olan çeşitliliği (yaş, cinsiyet, alt-kültür/ağız/lehçe vb) sağlayacaktır.