Türkçe külliyat (cümleler)

Not: Bu ileti buradaki iletinin özeti olarak Türkçe alt-foruma aktarılmıştır.

Boşuna giden emekleri azaltmak üzere bugüne kadar sentence-collector ile sisteme aktarılan ve üzerinde çalışılmakta olan kaynakları burada listeleyeceğiz.

ÖNEMLİ: Sentence Collector’da onay bekleyen kaynaklar

Onaylamak için burayı tıklayın.

Aktarılmış ve onaylanmış olan kaynaklar

  • :green_circle: SETimes Türkçe (bir kısmı) (5.077 cümle, Mart 2021 öncesi)

Aşağıdaki kaynaklar aktarılmadan önce iki kere gözden geçirilmiş, ardından iki ayrı kişi tarafından kontrol edilmiştir.

  • :green_circle: Kürk Mantolu Madonna, Sabahattin Ali ~ 2.500 cümle (Mart 2021)
  • :green_circle: Bütün Öyküleri - 1, Sabahattin Ali ~ 3.960 cümle (Nisan 2021)
  • :green_circle: Altyazı kaynaklarında 1000 kereden fazla geçen ifadeler ~5.108 cümle (Mayıs 2021)
  • :green_circle: En Alttakiler proje raporundan alıntılar 38 cümle (Eylül 2021)
  • :green_circle: Atasözleri - 2.555 cümle (Ekim 2021)
  • :green_circle: Bütün Öyküleri - 2, Sabahattin Ali ~ 4.027 cümle (Ekim 2021)
  • :green_circle: Günlük kullanılan ifadeler 4,999 ifade (Ekim 2021)
  • :green_circle: Günlük kullanılan ifadeler 5,000 ifade (Kasım 2021)

Üzerinde çalışılan kaynaklar

  • :green_circle: Günlük kullanılan ifadeler (42.015 ifade, parça parça Sentence Collector’a eklenecek) (2x5,000 eklendi)
  • :red_circle: Sabahattin Ali, diğer eserleri

Olası kaynaklar

  • TBMM tutanakları (Gelen resmi yazı Mozilla Legal tarafından kontrol ediliyor)
1 Like

TBMM’ye Bilgi Edinme Kanunu kapsamında yaptığım başvuruya dün olumlu yanıt geldi. Mozilla hukuk bölümünün incelemesi için kendilerine iletildi.

Çok kaliteli bir içerik olmasa da, içinden elle eleme yapılarak kullanılırsa sonsuz bir kaynak sayılabilir. Kullanılan dil ve politik içerik hepimizin malumu, dikkatli incelemek lazım. Burada var olan scriptleri adapte ederek verinin otomatik çekilmesini sağlamak gerekiyor.

Edit: Aşağıdaki yöntem, kullanmamaya karar verdim. Bahsedilen şekilde eklenen cümleler ayrı bir yazılım olan Sentence Collector veri tabanına girmiyorlar ve bundan sonra eklenecek olan cümlelerde “daha önce girişmiş” kontrolü yapılamıyor. Bu da boşuna aynı cümlelerin kaydedilmesi ile sonuçlanabilir.

Bu nedenle Sentence Collector kullanacağım. Farklı örneklemler 3-4 kere kontrolden geçtiği ve bulunan hatalar da düzeltildiği için rahatlıkla "E"vet tuşuna basarak hızla kontrol edebilirsiniz.


Bu günlerde ekleyeceğim büyük çaplı kaynakları hızlı olması için github Pull Request (PR) olarak göndereceğim. Bunlar daha sonra şurada ayrı dosyalar şeklinde bulunabilecek.

Bu süreçte bir kişinin hazırladığı toplu veriden alınan örneklemler Türkçe ana dili olan 2-3 ayrı kişi tarafından kontrol ediliyor ve bir hata oranı belirleniyor. Bulunan hata oranının düşük olması bekleniyor. Süreç hakkındaki bilgi şurada bulunabilir. Örneklem boyutu hesaplaması ise şuradaki araç ile yapılıyor, burada Confidence Level %99, Margin of Error ise %2 olarak alınıyor. Büyük kümelerde (yüzbinler, milyonlar) 4000’lik örneklem çıkıyor, ama daha küçük kümelerde oran çok fazla düşmüyor. ör 2500 civarında cümle için 1500’lük örnek çıkıyor, mantıklı olmuyor.

Ama ben iki kere üzerinden geçip her türlü çiftleri ayıkladığım, uygun olmayanları çıkardığım, hataları düzelttiğim için bu seferlik %10’luk örneklem kullanacağız. Başka türlü kampanyaya yetişmez…

Her durumda:

  • PR yapıldıktan sonra bulunan bazı hatalar Common Voice yeni sürümünü derlemeden yeni PR’larla düzeltilebiliyor.
  • Kayıt yaparken ya da kayıtları dinlerken hatalar bildirilebiliyor.

Elden geleni yaptık ama hatasız kul olmaz…


EDIT-2:
Yukarıda anlatılan nedenle bu cümleleri Sentence Collector’a ekledim. Farklı örneklemler 3-4 kere kontrolden geçtiği ve bulunan hatalar da düzeltildiği için rahatlıkla "E"vet tuşuna basarak hızla kontrol edebilirsiniz.


Atasözleri

Çeşitli kaynaklardan derlenen 2.800 atasözü ayıklanınca geriye 2.555 kaldı. Üç adet 255 cümlelik örneklem hazırlandı, yarın kontrol edilmesi lazım…

İstatistikleri aşağıda veriyorum, bunlar tek kişi 2.5 saate yakın yeni kayıt sağlayacak. Aralarında hiç duymadıklarım da var, bayağı ilginç oldu hazırlığı…

Ben de kontrol etmek isterim diyen lütfen buraya ya da bana doğrudan yazsın lütfen.

:heavy_check_mark: tr-proverbs-test-1.zip (17.3 KB) - MK / QA: %98
:heavy_check_mark: tr-proverbs-test-2.zip (17.5 KB) - DO / QA: %98
:heavy_check_mark: tr-proverbs-test-3.zip (17.5 KB) - BO / QA: %100

Edit: 3 Ekim 2021’de PR olarak iletilmiştir. Daha sonra iptal edilmiştir.

EDIT-2:
Yukarıda anlatılan nedenle bu cümleleri önümüzdeki günlerde kitaplardan gelen başka kaynaklarla karıştırarak parça parça Sentence Collector’a ekleyeceğim. Orayı düzenli olarak kontrol edin lütfen…


Altyazı dosyalarından kullanım frekansı 100’den fazla, 1000’den az olanlar…

  • Toplam incelenen: 58.058 cümle/ifade
  • Temizlendikten sonra kalan: 42.015
  • Tek okuma yaklaşık kayıt süresi: ~18 saat

Bunlar yabancı filmlerin çevirisi olduğu için en ideal kaynak değiller tabii. Çok fazla polisiye ifade, kültürel öğe (ör. Allah yerine Tanrı), küfür ya da “adamım” tarzı ifadeler var… Tüm Hollywood klişeleri de girdi maalesef… İyi yanı günlük dilde karşılıklı konuşmalardaki kısa ifadeleri içermeleri. Bunları bir kere alıp koyacağız, unutacağız.

Okurken umarım vurgulara dikkat edilir… Basit bir örnekle farkları vermek isterim:

  • Çay! (Çay söylerden)
  • Çay… (“Ne içiyorsun?” sorusuna yanıt)
  • Çay? (“Çay alır mısın?” anlamında)

Bunları hazırlamak bir hafta aldı, epey sıkıcı bir süreçti. Kısa da oldukları için okurken de hızlı ama sıkıcı olabilirler, ortalama süreyi de azaltacaklar. O yüzden bu kümeyi Sabahattin Ali’den diğer kitaplarla tamamlamaya çalışacağım…

Son istatistikler şöyle:

Bunların da test dosyalarını 2000’lik örneklemler olarak dağıttım…

:heavy_check_mark: tr-subtitles-2-test-1.zip (45 KB) - FT / QA: 98.6%
:heavy_check_mark: tr-subtitles-2-test-3.zip (45 KB) - MK / QA: 99.7%
:heavy_check_mark: tr-subtitles-2-test-2.zip (45 KB) - DO / QA: 99.95

Alınan geri beslemeden sonra yapılan üçüncü geçiş sonrasında sayı 45,026’dan 42,015’e düştü…

Teşekkürler başarılı bir destek oldu. Benim sitem Akçakoca boğaziçi restaurant.

@mustafa_cemal_can Hoş geldiniz Mustafa bey, kendinizi şurada tanıtabilir ve şuradaki listeden öncelikli olanlarda yardım edebilirsiniz.

Sabahattin Ali’nin Bütün Hikayeleri 2 kitabından sonraki piyes bölümü hariç kısımda 5470 cümleden geriye 4056 kaldı. Sentence Collector net olarak 4027 cümle kabul etti (şu anki validator apostroflardan da ayırıyormuş, bu soruna bakacağız).

Bu da bize tek kişi 6 saate yakın kayıt şansı verecek.

Bununla birlikte sokakta çok duyulan sözlerden gönüllülerce derlenmiş 5.000 cümleyi de Sentence Collector’a ekledim. Buradan da 2 saat kadar kayıt çıkar.

Lütfen kontrol ediniz