Rusça-Çerkesçe paralel metinlerin ilk versiyonunun veri seti tamamlandı.
Veri seti yaklaşık 330 bin çeviri çiftinden oluşuyor.
220 bini doğu (Kabardey) lehçesinde ve 110 bin batı lehçesinde oluşmaktadır.
Metinler, birkaç yıl boyunca çeşitli sözlüklerden, kitaplardan, makalelerden ve zedzek.com’daki gönüllülerin yardımıyla toplanmıştır.
Veri toplama sürecine katılan herkese teşekkür ederiz.
Veri seti Hugging Face’te açık erişimle yayınlanmıştır:
https://huggingface.co/datasets/adiga-ai/circassian-parallel-corpus
Herkes bu veriyi model eğitimi, akademik ve diğer amaçlar için kullanabilir.
adiga.ai projesinin ana amacı, Çerkes dilinin internetteki varlığını genişletmektir.
Bu nedenle veri seti, çok dilli modellerini eğitmek için kullanmayı planlayan Yandex, Google ve Meta şirketlerinin temsilcilerine de iletildi.
Her şey yolunda giderse, önümüzdeki yıl içinde Çerkes dilinin Yandex Çeviri, Google Çeviri ve Meta şirketinin ürünlerinde (facebook, instagram) ve bu şirketlerin açık dil modellerinde desteklenmesi beklenebilir.