Not: Bu ileti buradaki iletinin özeti olarak Türkçe alt-foruma aktarılmıştır.
Boşuna giden emekleri azaltmak üzere bugüne kadar sentence-collector ile sisteme aktarılan ve üzerinde çalışılmakta olan kaynakları burada listeleyeceğiz.
ÖNEMLİ: Sentence Collector’da onay bekleyen kaynaklar
Onaylamak için burayı tıklayın.
- Aşağıda kavuniçi işaretli gruplar için kontrol/onay süreçleri sürmektedir.
Aktarılmış ve onaylanmış olan kaynaklar
- SETimes Türkçe (bir kısmı) (5.077 cümle, Common Voice 2018’de ilk kurulduğunda başlangıç sağlamak için eklenmiş bu cümleler, değişik gönüllüler tarafından 2018-2021 arasında 5-6 kere okunmuş durumda. v1-v6.1 veri setleri sadece bu cümlelerden oluşuyor. Şu anda önemli oranda yabancı kelime (ör. Sırpça özel isimler) içeren bu corpus’un etkisini gidermeye çalışıyoruz)
Aşağıdaki kaynaklar aktarılmadan önce iki kere gözden geçirilmiş, ardından iki ayrı kişi tarafından kontrol edilmiştir.
- Kürk Mantolu Madonna, Sabahattin Ali ~ 2.500 cümle (Mart 2021)
- Bütün Öyküleri - 1, Sabahattin Ali ~ 3.960 cümle (Nisan 2021)
- Altyazı kaynaklarında 1000 kereden fazla geçen ifadeler ~5.108 cümle (Mayıs 2021)
- En Alttakiler proje raporundan alıntılar 38 cümle (Eylül 2021)
- Atasözleri - 2.555 cümle (Ekim 2021)
- Bütün Öyküleri - 2, Sabahattin Ali ~ 4.027 cümle (Ekim 2021)
- Günlük kullanılan ifadeler 4,999 ifade (Ekim 2021)
- Günlük kullanılan ifadeler 5,000 ifade (Kasım 2021)
- Günlük kullanılan ifadeler 5,000 ifade (Aralık 2021)
- Kürk Mantolu Madonna eklemeler, Sabahattin Ali 1,016 cümle (Haziran 2022)
- Günlük kullanılan ifadeler 2,014 ifade (Haziran 2022)
- Bütün Öyküleri - 1 eklemeler, Sabahattin Ali 850 ek cümle (Haziran 2022)
- Bütün Öyküleri - 2 eklemeler, Sabahattin Ali 1.485 ek cümle (Haziran 2022)
- Çakıcı’nın İlk Kurşunu, Sabahattin Ali 1.284 cümle (Haziran 2022)
- Değirmen, Sabahattin Ali 91 ek cümle (Haziran 2022)
- İçimizdeki Şeytan, Sabahattin Ali 2.921 cümle (Haziran 2022)
- Günlük kullanılan ifadeler 5,000 ifade (Haziran 2022)
- Sabahattin Ali - Kuyucaklı Yusuf (eklendi ama veriyi unuttum )
- Gıbırnet destek kanalından (chat) 5000 üzerinde cümle eklendi. Öte yandan bu cümleler önceden kontrol edilip düzeltilmemiş olduğu için her açıdan çok sorunluydu, büyük çoğunluğu elendi, çok az kısmı (%10?) onaylanabildi. Üstelik bu işlem de epey zamanımızı aldı. Lütfen bunu yapmayalım.
- Türkçe Vikipedi’den sentence-extractor ile yapılan alıntılar (348,493 cümle, Ağustos 2023, onayı Kasım 2023)
- Günlük kullanılan ifadeler (Türkçe Gönüllüleri tarafından üretilen 3,000 konuşma ifadesi yeni arayüz üzerinden dosya olarak eklendi, Eylül 2023, onayı Kasım 2023)
- Günlük kullanılan ifadeler (Türkçe Gönüllüleri tarafından üretilen 3,000 konuşma ifadesi, gönderim 29 Nisan 2024, onayı 3 Haziran 2024)
Üzerinde çalışılan/çalışılacak kaynaklar
- Kalan günlük kullanılan ifadeleri uzatıyoruz (20.000+ ifade, yeni arayüze parça parça, toplu eklenecek.)
- Sabahattin Ali’nin eserlerinden 10 kelimeden uzun olanlar (kayıt süresi 15 saniyeye çıkarıldı)…
- Diğer teliften düşmüş yazarların kitapları: Halide Edib Adıvar, Halit Ziya Uşaklıgil, Memduh Şevket Esendal, Ömer Seyfettin, Sait Faik Abasıyanık, … (eski dil sorununu kontrol etmemiz/halletmemiz gerekiyor - otomatik işlemeden 110.000 cümle çıktı, büyük iş!)
- Common Voice alanlara özel cümle özelliği kazandı, bunlar üzerine çalışacağız…
Olmayan kaynaklar
- TBMM tutanakları (Mozilla sıcak bakmadı)
- TDK Türkçe Sözlük’deki Örnekler (TDK tarafından ancak kaynak belirtilerek kullanılabileceği söylendi)