TRimCapS: makine öğrenmesi ile Türkçe dilindeki görüntü alt yazılarını sınıflandırma sistemi

dc.contributor.authorPınar, Merve
dc.contributor.authorYılmaz, Esra
dc.contributor.authorÇıplak, Zeki
dc.contributor.authorAltınel Girgin, Ayşe Berna
dc.date.accessioned2026-05-20T13:25:37Z
dc.date.available2026-05-20T13:25:37Z
dc.date.issued2025
dc.departmentMeslek Yüksekokulu, Gedik Meslek Yüksekokulu, Bilgisayar Programcılığı Programı
dc.description.abstractDijital medyanın yaygınlaşmasıyla görüntü ve video içeriklerinin analizi önem kazanmıştır. Ancak, Türkçe alt yazı sınıflandırması, dilin yapısal zorlukları ve sınırlı veri kümeleri nedeniyle büyük bir araştırma sorunu oluşturmaktadır. Bu sorunu ele almak için TasvirEt, Flickr30k ve MS COCO veri kümeleri birleştirilerek 114.566 görüntü ve 588.867 Türkçe alt yazı içeren ImCapTR veri kümesi oluşturulmuştur. Önerilen TRimCapS sisteminde, alt yazılar TF-IDF, CountVectorizer ve GloVe ile vektörleştirilmiş, K-Means ve Latent Dirichlet Allocation kullanılarak kategorize edilmiştir. Özellik seçimi bilgi kazancı, ki-kare, Fisher skoru, karşılıklı bilgi ve temel bileşenler analizi yöntemleriyle gerçekleştirilmiştir. Çeşitli makine öğrenimi ve derin öğrenme modelleriyle yapılan sınıflandırma deneylerinde, CountVectorizer ve BERT kombinasyonu %98,84 doğruluk oranı ile en iyi sonucu vermiştir. Bilgi kazancı ve temel bileşenler analizi, diğer yöntemlere göre daha yüksek performans göstermiştir. Bu çalışma, Türkçe alt yazı sınıflandırması konusunda en kapsamlı deney sonuçlarını sunan ve oluşturulan veri kümesini araştırmacıların erişimine açan ilk çalışmadır.
dc.description.abstractWith the widespread adoption of digital media, the analysis of image and video content has gained significance. However, Turkish subtitle classification presents a major research challenge due to the structural complexities of the language and the limited availability of datasets. To address this issue, the TasvirEt, Flickr30k, and MS COCO datasets were combined to create the ImCapTR dataset, which contains 114.566 images and 588.867 Turkish subtitles. In the proposed TRimCapS system, subtitles were vectorized using TF-IDF, CountVectorizer, and GloVe, and categorized using K-Means and Latent Dirichlet Allocation. Feature selection was performed using information gain, chi-square, Fisher score, mutual information, and principal component analysis. Classification experiments utilizing various machine learning and deep learning models demonstrated that the combination of CountVectorizer and BERT achieved the highest accuracy of 98.84%. Information gain and principal component analysis outperformed other feature selection methods. This study is the first to provide the most comprehensive experimental results on Turkish subtitle classification while making the constructed dataset publicly accessible to researchers.
dc.identifier.doi10.55071/ticaretfbd.1635443
dc.identifier.endpage464
dc.identifier.issn1305-7820
dc.identifier.issn2587-165X
dc.identifier.issue48
dc.identifier.startpage438
dc.identifier.trdizinid1367702
dc.identifier.urihttps://doi.org/10.55071/ticaretfbd.1635443
dc.identifier.urihttps://hdl.handle.net/11501/2729
dc.identifier.volume24
dc.indekslendigikaynakTR-Dizin
dc.institutionauthorÇıplak, Zeki
dc.institutionauthorid0000-0002-0086-3223
dc.language.isotr
dc.publisherİstanbul Ticaret Üniversitesi
dc.relation.ispartofİstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi
dc.relation.publicationcategoryMakale - Ulusal Hakemli Dergi - Kurum Öğretim Elemanı
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectTürkçe Görüntü Alt Yazılandırma
dc.subjectAlt Yazı Sınıflandırma
dc.subjectBERT
dc.subjectMetin Vektörleştirme
dc.subjectÖzellik Seçimi
dc.subjectTurkish Image Captioning
dc.subjectCaption Classification
dc.subjectText Vectorization
dc.subjectFeature Selection
dc.titleTRimCapS: makine öğrenmesi ile Türkçe dilindeki görüntü alt yazılarını sınıflandırma sistemi
dc.title.alternativeTRimCapS: a machine learning-based system for classifying image captions in the Turkish language
dc.typeArticle

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
Tam Metin / Full Text
Boyut:
1.38 MB
Biçim:
Adobe Portable Document Format
Lisans paketi
Listeleniyor 1 - 1 / 1
Kapalı Erişim
İsim:
license.txt
Boyut:
1.17 KB
Biçim:
Item-specific license agreed to upon submission
Açıklama: