Common Voice Türkçe'nin durumu

bozden · September 14, 2021, 2:32pm

Vikipedi’ye göre Türkçe, en çok konuşulan diller arasında 13. sıradadır. Dünya nüfusunun yaklaşık %1’i (79.4 milyon) anadili olarak Türkçe’yi konuşur. Bu nüfus Almanca, Fransızca, İtalyanca gibi batı dillerinden daha fazladır.

Öte yandan Almanca, Fransızca ve hatta Katalanca gibi diller Common Voice’da Türkçe’nin çok çok önünde gitmektedir. Bunu da daha çok gönüllünün daha çok katkı vermesiyle sağladılar.

Veri kümesindeki gelişim

Aşağıdaki tabloda yayınlanan veri kümelerinde Türkçe’nin zaman içindeki gelişimi bulabilirsiniz.

Buradan bazı saptamalar yapmamız mümkün:

Kayıt sayımız ve onaylanmış kayıt sayımız çok düşük. Her ne kadar yaklaşık 6 ayda bir yapılan derlemelerde yaklaşık %50 büyüme görülse de büyük hedef olan 10.000 saatin sadece binde 3’üne ulaşmış durumdayız. (Ek not: 2020 yılının ikinci yarısındaki duraklamanın Mozilla’da gerçekleşen yapısal değişiklikler sonucu ortaya çıkan belirsizlik nedeniyle olduğu tahmin edilmektedir).
Kayıt sayımız ve onaylanan kayıt sayısı arasındaki makas çok açılmıştır. Bunun temel nedeni katkı veren gönüllülerin daha çok kayıt yapmaya yönelmesi, yapılan kayıtları dinleyerek onaylama sürecinin daha az ilgi çekmesidir. Yapılan kayıtlardaki hata oranının (dolayısı ile reddedilmelerinin) artması da nedenlerden biri olabilir.
Bir çok dilde olduğu gibi genç erkekler baskındır. Öte yandan gerçekten çalışan bir sistem için eşit dağılım gerekmektedir. Dolayısı ile önceliğimiz şu an %6 olan kadın sayısının, 40 yaş üstünde olan gönüllü sayısının arttırılması yönünde olmalıdır.

Ne için ne gerekiyor?

Common Voice ilk başladığında (2018) gereklilikler aşağıdaki şekilde tanımlanmıştı, hala web sitesinde bu kaynaklar duruyor ama tam geçerli değiller.

Bunu özetlersek:

1-300 saat: Basit, sınırlı sözlüğe sahip komut tabanlı sistemler.
300-1.000 saat: Sınırlı sözlüğe sahip sürekli konuşma algılama (ör. teknik)
2.000 saat: İnsana yakın seviyede başarımda genel otomatik konuşma algılama (dile göre değişiyor bu süre).
10.000 saat: Çok yüksek kalitede, genel, büyük sözlük, sürekli konuşma algılama.

O zamandan bugüne makine öğrenme algoritmalarında büyük gelişmeler oldu ve bu süreler epey azaldı. Her dil için farklı olmakla birlikte 300 saatlik kaydın yeterli olabileceği görülüyor.

Son yayınlanan Corpus 30 saat kadar onaylı kayıt içeriyor. Belki şu tür adım adım gelişen hedefler koymamızda fayda olabilir:

100 saat
300 saat
1000 saat

Her aşamada performansın test edilip bu hedefleri güncellemek gerekiyor tabii ki.

Corpus 7’ye göre ortalama kayıt süresi 3.75 saniye… Basit bir hesapla 1.000 saat için yaklaşık 850.00 onaylanmış cümle gerektiği ortaya çıkıyor. Bu büyüklüğe birkaç kişilik bir gönüllü grubu ile ulaşılması olanaksız. Bir kişinin uzun süreye yayarak 1000 kayıt yapması yerine 100 kişinin kısa zamanda ortalama 10 kayıt yapması hem hızı arttıracak, hem de çok önemli olan çeşitliliği (yaş, cinsiyet, alt-kültür/ağız/lehçe vb) sağlayacaktır.

bozden · September 19, 2021, 4:22pm

Doğrulanmamış kayıt da 37 saat civarındaydı… Son Corpus’un üretildiği tarih 21 Temmuz 2021…

19 Eylül 2021 itibarı ile durum şu:

Görüleceği gibi yaklaşık Mart-Temmuz arasında hızlı giden kayıtlar sonrasında yavaşlamış durumda. Onaylama süreçleri ise lineer olarak artmaya devam ediyor, aradaki makas da kapanıyor…

Son Corpus yayınından sonra aylık ortalama olarak onaylı seste yaklaşık %6.7/ay, ses kayıtlarında da %2.7/ay artış hızı söz konusu. Bu da yukarıdaki tabloda verilen aylık değerlerin epey altında…

Birkaç kişinin çok fazla kayıt yapması hiç bir şekilde iyi değil. Bir çok model bir kişiden sadece tek bir sesin alınmasına dayalı. Çünkü fazla aynı ses sistemlerin “biased” (önyargılı) eğitilmesine neden oluyor. Bireylerin ses kaydında yarışmayı durdurması ve diğer alanlarda yoğunlaşması lazım:

Yeni gönüllüler bulunması. Özellikle kadın sesi, daha ileri yaşlardaki insanların sesi lazım. Bu yeni sesler hem veri setini iyileştirecekler hem de hızımızın artmasını sağlayacaklar. Bu konuda Ekim başında tüm Common Voice için geniş çaplı bir kampanya başlatılması planlanıyor.
CC-0 eserler bulunması, cümleler arasına eklenmesi ve kontrol edilmesi.
Bekleyen kayıtların dinlenerek kontrolü.

bozden · May 3, 2022, 5:09am

2021 sonunda gerçekleştirdiğimiz kampanya ile birlikte onaylanmış kayıt sayı ve süresini iki katından fazlaya çıkartabildik. Tüm süreci FOSDEM’22’de gerçekleştirdiğimiz bir sunum ile paylaştık.

Detaylı bilgiye oradan erişebilirsiniz:

Sunumu YouTube kanalımızda da yayınladık…

Şu anda çalışmalarımızı v9.0 üzerinde yoğunlaştırdık, güncellemeleri paylaşacağız.

Topic		Replies	Views
[Önce bunu oku] Türkçe (tr) kategorisi hakkında Türkçe (tr)	1	803	September 14, 2021
Sosyal Medya Kampanyası Türkçe (tr)	9	1052	May 30, 2023
Non-English language stats Common Voice	15	1588	August 8, 2018
How Common Voice count number of speakers? Common Voice	3	998	July 4, 2022
Türkçe külliyat (cümleler) Türkçe (tr) sentence-collection	19	3380	May 3, 2024

Common Voice Türkçe'nin durumu

Veri kümesindeki gelişim

Ne için ne gerekiyor?

Related topics