Türkçe külliyat (cümleler)

Not: Bu ileti buradaki iletinin özeti olarak Türkçe alt-foruma aktarılmıştır.

Boşuna giden emekleri azaltmak üzere bugüne kadar sentence-collector ile sisteme aktarılan ve üzerinde çalışılmakta olan kaynakları burada listeleyeceğiz.

ÖNEMLİ: Sentence Collector’da onay bekleyen kaynaklar

Onaylamak için burayı tıklayın.

  • Aşağıda kavuniçi işaretli gruplar için kontrol/onay süreçleri sürmektedir.

Aktarılmış ve onaylanmış olan kaynaklar

  • :green_circle: SETimes Türkçe (bir kısmı) (5.077 cümle, Common Voice 2018’de ilk kurulduğunda başlangıç sağlamak için eklenmiş bu cümleler, değişik gönüllüler tarafından 2018-2021 arasında 5-6 kere okunmuş durumda. v1-v6.1 veri setleri sadece bu cümlelerden oluşuyor. Şu anda önemli oranda yabancı kelime (ör. Sırpça özel isimler) içeren bu corpus’un etkisini gidermeye çalışıyoruz)

Aşağıdaki kaynaklar aktarılmadan önce iki kere gözden geçirilmiş, ardından iki ayrı kişi tarafından kontrol edilmiştir.

  • :green_circle: Kürk Mantolu Madonna, Sabahattin Ali ~ 2.500 cümle (Mart 2021)
  • :green_circle: Bütün Öyküleri - 1, Sabahattin Ali ~ 3.960 cümle (Nisan 2021)
  • :green_circle: Altyazı kaynaklarında 1000 kereden fazla geçen ifadeler ~5.108 cümle (Mayıs 2021)
  • :green_circle: En Alttakiler proje raporundan alıntılar 38 cümle (Eylül 2021)
  • :green_circle: Atasözleri - 2.555 cümle (Ekim 2021)
  • :green_circle: Bütün Öyküleri - 2, Sabahattin Ali ~ 4.027 cümle (Ekim 2021)
  • :green_circle: Günlük kullanılan ifadeler 4,999 ifade (Ekim 2021)
  • :green_circle: Günlük kullanılan ifadeler 5,000 ifade (Kasım 2021)
  • :green_circle: Günlük kullanılan ifadeler 5,000 ifade (Aralık 2021)
  • :green_circle: Kürk Mantolu Madonna eklemeler, Sabahattin Ali 1,016 cümle (Haziran 2022)
  • :green_circle: Günlük kullanılan ifadeler 2,014 ifade (Haziran 2022)
  • :green_circle: Bütün Öyküleri - 1 eklemeler, Sabahattin Ali 850 ek cümle (Haziran 2022)
  • :green_circle: Bütün Öyküleri - 2 eklemeler, Sabahattin Ali 1.485 ek cümle (Haziran 2022)
  • :green_circle: Çakıcı’nın İlk Kurşunu, Sabahattin Ali 1.284 cümle (Haziran 2022)
  • :green_circle: Değirmen, Sabahattin Ali 91 ek cümle (Haziran 2022)
  • :green_circle: İçimizdeki Şeytan, Sabahattin Ali 2.921 cümle (Haziran 2022)
  • :green_circle: Günlük kullanılan ifadeler 5,000 ifade (Haziran 2022)
  • :green_circle: Sabahattin Ali - Kuyucaklı Yusuf (eklendi ama veriyi unuttum :confused: )
  • :green_circle: Gıbırnet destek kanalından (chat) 5000 üzerinde cümle eklendi. Öte yandan bu cümleler önceden kontrol edilip düzeltilmemiş olduğu için her açıdan çok sorunluydu, büyük çoğunluğu elendi, çok az kısmı (%10?) onaylanabildi. Üstelik bu işlem de epey zamanımızı aldı. Lütfen bunu yapmayalım.
  • :green_circle: Türkçe Vikipedi’den sentence-extractor ile yapılan alıntılar (348,493 cümle, Ağustos 2023, onayı Kasım 2023)
  • :green_circle: Günlük kullanılan ifadeler (Türkçe Gönüllüleri tarafından üretilen 3,000 konuşma ifadesi yeni arayüz üzerinden dosya olarak eklendi, Eylül 2023, onayı Kasım 2023)
  • :green_circle: Günlük kullanılan ifadeler (Türkçe Gönüllüleri tarafından üretilen 3,000 konuşma ifadesi, gönderim 29 Nisan 2024, onayı 3 Haziran 2024)

Üzerinde çalışılan/çalışılacak kaynaklar

  • :yellow_circle: Kalan günlük kullanılan ifadeleri uzatıyoruz (20.000+ ifade, yeni arayüze parça parça, toplu eklenecek.)
  • :yellow_circle: Sabahattin Ali’nin eserlerinden 10 kelimeden uzun olanlar (kayıt süresi 15 saniyeye çıkarıldı)…
  • :yellow_circle: Diğer teliften düşmüş yazarların kitapları: Halide Edib Adıvar, Halit Ziya Uşaklıgil, Memduh Şevket Esendal, Ömer Seyfettin, Sait Faik Abasıyanık, … (eski dil sorununu kontrol etmemiz/halletmemiz gerekiyor - otomatik işlemeden 110.000 cümle çıktı, büyük iş!)
  • :red_circle: Common Voice alanlara özel cümle özelliği kazandı, bunlar üzerine çalışacağız…

Olmayan kaynaklar

  • :red_circle: TBMM tutanakları (Mozilla sıcak bakmadı)
  • :red_circle: TDK Türkçe Sözlük’deki Örnekler (TDK tarafından ancak kaynak belirtilerek kullanılabileceği söylendi)
1 Like

TBMM’ye Bilgi Edinme Kanunu kapsamında yaptığım başvuruya dün olumlu yanıt geldi. Mozilla hukuk bölümünün incelemesi için kendilerine iletildi.

Çok kaliteli bir içerik olmasa da, içinden elle eleme yapılarak kullanılırsa sonsuz bir kaynak sayılabilir. Kullanılan dil ve politik içerik hepimizin malumu, dikkatli incelemek lazım. Burada var olan scriptleri adapte ederek verinin otomatik çekilmesini sağlamak gerekiyor.

Edit: Aşağıdaki yöntem, kullanmamaya karar verdim. Bahsedilen şekilde eklenen cümleler ayrı bir yazılım olan Sentence Collector veri tabanına girmiyorlar ve bundan sonra eklenecek olan cümlelerde “daha önce girişmiş” kontrolü yapılamıyor. Bu da boşuna aynı cümlelerin kaydedilmesi ile sonuçlanabilir.

Bu nedenle Sentence Collector kullanacağım. Farklı örneklemler 3-4 kere kontrolden geçtiği ve bulunan hatalar da düzeltildiği için rahatlıkla "E"vet tuşuna basarak hızla kontrol edebilirsiniz.


Bu günlerde ekleyeceğim büyük çaplı kaynakları hızlı olması için github Pull Request (PR) olarak göndereceğim. Bunlar daha sonra şurada ayrı dosyalar şeklinde bulunabilecek.

Bu süreçte bir kişinin hazırladığı toplu veriden alınan örneklemler Türkçe ana dili olan 2-3 ayrı kişi tarafından kontrol ediliyor ve bir hata oranı belirleniyor. Bulunan hata oranının düşük olması bekleniyor. Süreç hakkındaki bilgi şurada bulunabilir. Örneklem boyutu hesaplaması ise şuradaki araç ile yapılıyor, burada Confidence Level %99, Margin of Error ise %2 olarak alınıyor. Büyük kümelerde (yüzbinler, milyonlar) 4000’lik örneklem çıkıyor, ama daha küçük kümelerde oran çok fazla düşmüyor. ör 2500 civarında cümle için 1500’lük örnek çıkıyor, mantıklı olmuyor.

Ama ben iki kere üzerinden geçip her türlü çiftleri ayıkladığım, uygun olmayanları çıkardığım, hataları düzelttiğim için bu seferlik %10’luk örneklem kullanacağız. Başka türlü kampanyaya yetişmez…

Her durumda:

  • PR yapıldıktan sonra bulunan bazı hatalar Common Voice yeni sürümünü derlemeden yeni PR’larla düzeltilebiliyor.
  • Kayıt yaparken ya da kayıtları dinlerken hatalar bildirilebiliyor.

Elden geleni yaptık ama hatasız kul olmaz…


EDIT-2:
Yukarıda anlatılan nedenle bu cümleleri Sentence Collector’a ekledim. Farklı örneklemler 3-4 kere kontrolden geçtiği ve bulunan hatalar da düzeltildiği için rahatlıkla "E"vet tuşuna basarak hızla kontrol edebilirsiniz.


Atasözleri

Çeşitli kaynaklardan derlenen 2.800 atasözü ayıklanınca geriye 2.555 kaldı. Üç adet 255 cümlelik örneklem hazırlandı, yarın kontrol edilmesi lazım…

İstatistikleri aşağıda veriyorum, bunlar tek kişi 2.5 saate yakın yeni kayıt sağlayacak. Aralarında hiç duymadıklarım da var, bayağı ilginç oldu hazırlığı…

Ben de kontrol etmek isterim diyen lütfen buraya ya da bana doğrudan yazsın lütfen.

:heavy_check_mark: tr-proverbs-test-1.zip (17.3 KB) - MK / QA: %98
:heavy_check_mark: tr-proverbs-test-2.zip (17.5 KB) - DO / QA: %98
:heavy_check_mark: tr-proverbs-test-3.zip (17.5 KB) - BO / QA: %100

Edit: 3 Ekim 2021’de PR olarak iletilmiştir. Daha sonra iptal edilmiştir.

EDIT-2:
Yukarıda anlatılan nedenle bu cümleleri önümüzdeki günlerde kitaplardan gelen başka kaynaklarla karıştırarak parça parça Sentence Collector’a ekleyeceğim. Orayı düzenli olarak kontrol edin lütfen…


Altyazı dosyalarından kullanım frekansı 100’den fazla, 1000’den az olanlar…

  • Toplam incelenen: 58.058 cümle/ifade
  • Temizlendikten sonra kalan: 42.015
  • Tek okuma yaklaşık kayıt süresi: ~18 saat

Bunlar yabancı filmlerin çevirisi olduğu için en ideal kaynak değiller tabii. Çok fazla polisiye ifade, kültürel öğe (ör. Allah yerine Tanrı), küfür ya da “adamım” tarzı ifadeler var… Tüm Hollywood klişeleri de girdi maalesef… İyi yanı günlük dilde karşılıklı konuşmalardaki kısa ifadeleri içermeleri. Bunları bir kere alıp koyacağız, unutacağız.

Okurken umarım vurgulara dikkat edilir… Basit bir örnekle farkları vermek isterim:

  • Çay! (Çay söylerden)
  • Çay… (“Ne içiyorsun?” sorusuna yanıt)
  • Çay? (“Çay alır mısın?” anlamında)

Bunları hazırlamak bir hafta aldı, epey sıkıcı bir süreçti. Kısa da oldukları için okurken de hızlı ama sıkıcı olabilirler, ortalama süreyi de azaltacaklar. O yüzden bu kümeyi Sabahattin Ali’den diğer kitaplarla tamamlamaya çalışacağım…

Son istatistikler şöyle:

Bunların da test dosyalarını 2000’lik örneklemler olarak dağıttım…

:heavy_check_mark: tr-subtitles-2-test-1.zip (45 KB) - FT / QA: 98.6%
:heavy_check_mark: tr-subtitles-2-test-3.zip (45 KB) - MK / QA: 99.7%
:heavy_check_mark: tr-subtitles-2-test-2.zip (45 KB) - DO / QA: 99.95

Alınan geri beslemeden sonra yapılan üçüncü geçiş sonrasında sayı 45,026’dan 42,015’e düştü…

Teşekkürler başarılı bir destek oldu. Benim sitem Akçakoca boğaziçi restaurant.

@mustafa_cemal_can Hoş geldiniz Mustafa bey, kendinizi şurada tanıtabilir ve şuradaki listeden öncelikli olanlarda yardım edebilirsiniz.

Sabahattin Ali’nin Bütün Hikayeleri 2 kitabından sonraki piyes bölümü hariç kısımda 5470 cümleden geriye 4056 kaldı. Sentence Collector net olarak 4027 cümle kabul etti (şu anki validator apostroflardan da ayırıyormuş, bu soruna bakacağız).

Bu da bize tek kişi 6 saate yakın kayıt şansı verecek.

Bununla birlikte sokakta çok duyulan sözlerden gönüllülerce derlenmiş 5.000 cümleyi de Sentence Collector’a ekledim. Buradan da 2 saat kadar kayıt çıkar.

Lütfen kontrol ediniz

Eklenen cümlelerin ikinci okumalarına geçildiği için biraz daha üzerinde çalışmaya başladık.

Öncelikle durum şu:

  • 3 dosya altında toplam 33.412 cümle var.
  • Bunlar normalize edildiklerinde (küçük harf, noktalamalar silinmiş), çiftler giderildiğinde 32.306 cümle kalıyor.
  • Bundan “tokenları” (yani tek tek kelimeleri) çıkarttığımızda, 152.312 kelime ortaya çıkıyor.
  • Bunların da çiftlerini eleyince, geriye 31.441 kelime kalıyor. Yani “vocabulary” bu…

Öte yandan Türkçe eklerle gelişen bir dil olduğu için bunları içinde “ben”, “beni”, “bende” … gibi eklendikçe çoğalan yapılar var.

SONUÇ: Sözlüğümüz çok kısıtlı. Biz de cümleleri çoğaltırken sözlüğümüzü de genişletmeyi hedefliyoruz.

Bunun için bazı program parçacıkları yazdık, bir e-kitabı alıp işliyor (yazım hatalarının düzeltilmesinden çiftlerin ayıklanmasına, Cümle Toplayıcı kurallarının uygulanmasına kadar) ve olabildiğince işe yarar, son ürüne yakın sonuçlar veriyor. Doğal olarak OCR hataları gibi şeylerin elle düzeltilmesi gerekiyor.

İlk olarak Sabahattin Ali’nin buraya eklediğimiz 3 kitabını günlük konuşmalarla karıştırarak koyacağız. Ardından diğer kitaplarını da hızla ekleyeceğiz…

Sabahattin Ali’nin Kürk Mantolu Madonna’sı hazırlanan yazılımla işlendi, daha önce girilmemiş 1016 yeni cümle Cümle Toplayıcıya eklendi.

Bunlar ortalama 41.7 karakter (5.85 kelime/cümle) uzunluğunda. Yaklaşık 24 dak/kişi kayıt şansı verecek gibi.

Dün ayrıca gene günlük ifadelerden 2,014 adetlik bir parça ekledik.

Bundan sonra, arka arkaya kısa/uzun cümle ya da görece eski kelimeler içeren cümleler gelmesini engellemek ve toplu gönderim yapmak üzere geliştirilen yazılımla birden fazla kaynaktan elde ettiğimiz kaynakları birleştirerek karıştırıp ekleme yapacağız.

Bu ilk toplu eklememizde Sabahattin Ali’den:

  • Bütün Öyküleri-1’in yeniden işlenmesi ile 850 ek cümle
  • Bütün Öyküleri-2’nin yeniden işlenmesi ile 1.485 ek cümle
  • Çakıcı’nın ilk Kurşunu’nun işlenmesi ile 1.284 cümle
  • Değirmen’in işlenmesi ile 61 cümle (Değirmen, tüm öykülerinde zaten vardı)
  • İçimizdeki Şeytan’ın işlenmesi ile 2.921 cümle

bulundu. Bunlara günlük ifadelerden 5.000 cümle ekleyip çiftleri ayıkladığımız zaman toplam 11.550 tekil cümle ortaya çıktı. Bu da yaklaşık 11.5 saatlik kayıt demek. Dağarcığa da ~6.000 yeni kelime (çekimleri/ekleri ile birlikte) eklenmiş oluyor.

Merhabalar,
elimizde firmamızca biriktirilmiş yaklaşık 250bin cümle mevcut düzenleme yaparak destek olacağız.

Merhaba @Halim_AK , hoş geldiniz.

Bildiğiniz gibi Common Voice’a eklenecek cümlelerin CC-0 / Public Domain olması gerekiyor. Yani gazete haberleri bile olamıyor ve ayrıca kaynak gösterilerek bunların kamu malı olduğunu göstermek gerekiyor.

Elinizdeki kaynak bu açıdan ne durumda acaba?

Selamlar

TDK Türkçe sözlükteki örnek cümleleri çıkartıp, işleyip eklemeye giriştim. Öte yandan bilgi edinme yasasından TDK’ya sorduğumda bunların ancak referans verilerek kullanılabileceği yanıtını aldım. Dolayısı ile çalışma boşa gitti.

Açıp kendimin kapattığı PR referans olsun ve belki CC-0 istemeyen çalışmalarda kullanılabilir diye buraya bağlantısını ekliyorum.

CC-0 cümle bulmaktaki zorluklarımız nedeniyle Wikipedia’ya yönelmek durumunda kaldım. Mozilla ve Wikipedia arasındaki sözleşmeye göre “fair-use” çerçevesinde her makaleden 3 cümle alınabiliyor, bunu da cv-sentence-extractor üzerinden yapıyoruz.

Çok uzun ve sancılı bir süreç oldu, ama bize yıllarca yetecek kadar cümle sağlayabildik.

Yaklaşık iki ay süren bir çalışmanın sonunda Türkçe Vikipedi’den 348,494 cümle çıkardım. PR yapıldı ama devreye girmesi şu anda altyapı AWS’den Google Cloud’a taşınmakta olduğu için zaman alacak.

Bu cümlelerin bize 560-570 saat gibi tek kayıtlık kaynak sağlayacağını, 2-3 kayıt hedeflersek de 2000 saatlik kayda bizi ulaştırabileceğini hesaplıyorum. Yeter ki daha çok farklı sesleri daha çok kayıt yapmak için ikna edebilelim hep beraber.

Bu miktar Türkçe’nin teknoloji tarafından anlaşılması için günümüz modelleri ile harika sonuçlar verecek düşüncesindeyim.

Bu cümlelerdeki hata oranının %2-3 arasında bir yerde olacağını test eden dostlarla birlikte gördük. Hata bildirimleri de büyük oranda gramerden, düşük cümlelerden ve hedefi geniş tuttuğum için bilinmeyen kelime bildirimlerinden oluşuyor. Hatalı yazımlar ise sanırım binde 5 oranındadır.

Bugüne kadar günlük konuşma cümleleri üzerine yönelmiştik, bu da sözlükteki kelimelerin az bir bölümünü kullanmamızla sonuçlandı.

Ben bu çalışmada ad, soyad, okumasında sorun olmayacak yabancı adlar, yer adları (coğrafi adlar dahil) ve her alandan (tıp, spor, biyoloji, din vb) günlük yaşamda seyrek de olsa duyabileceğimiz sözcüklere izin verdim, yeter ki okunabilsinler.

Bazılarımız bunlarda zorlanabilir, o durumda “Atla” tuşuna basarak bir sonrakine geçmek doğru yöntem olacaktır.

Bu cümleler sayesinde ayrıca ortalama kayıt süremizi uzatabileceğiz. Yapılan işin özetine şuradan bakılabilir.

Yukarıda bahsedilen Wikipedia kaynaklarının önemli bir sorunu var: Diyalog formunda değiller ve doğal insan etkileşimi diyalog formatındadır.

Bugüne kadar büyük oranda konuşma cümleleri (conversational) eklemiştik. Bu sefer ise var olanın 7 katı büyüklükte bildirim cümleleri ekliyoruz. Bu belki bir konferansın (monolog) alt yazısının çıkartılması için iyi olabilir, ama dengelememiz lazım bunu.

Dolayısı ile daha çok diyalog eklememiz lazım. Bunu projendiriyoruz.

Telifi bitmiş yazarların eserleri üzerinde çalışmaya başladık, inanılmaz büyük bir iş çıktı tabii:

  • Halide Edib Adıvar (11 eser) => ~50.000 cümle
  • Halit Ziya Uşaklıgil (3 eser) => ~11.000 cümle
  • Memduh Şevket Esendal (3 eser) => ~16.000 cümle
  • Ömer Seyfettin (9 eser) => ~17.000 cümle

Ayrıca, kayıt süresinin 15 saniyeye çıkarılması dolayısı ile Sabahattin Ali’nin 7 eserini uzun cümleler için yeniden taradım. => ~15.000 cümle

Sait Faik Abasıyanık üzerine de çalışmak gerek tabii…

Bunlar çiftleri ayıklanmış cümleler, toplamı 109.000 cümle. Altından nasıl kalkılacak bilemiyorum…

CV Türkçe Gönüllüleri tarafından hazırlanan 3000 CC0 genel konuşma cümlesi onay için Common Voice ekibine gönderildi.