Bu çalışmada, Konvolüsyonel Sinir Ağları (KSA) ve Word2Vec metodu
kullanılarak Turkish Text Classification 3600 (TTC-3600) veri kümesi üzerinde
metin sınıflandırma çalışması yapılmış ve aynı veri kümesi kullanılarak yapılan
önceki çalışma ile kıyaslanmıştır. Çalışmada TTC-3600’ün ham ve Zemberek
yazılımıyla gövdelenmiş halleri üzerinde iki farklı KSA eğitilmiş ve test
edilmiştir. KSA ve Word2Vec metodu, klasik istatistiksel ve makine öğrenmesine
dayalı sınıflandırma algoritmalarından daha iyi bir performans (%93,3 doğruluk)
göstermiştir. Türkçe doğal dil işleme çalışmalarının azlığı ve bu alandaki
özellik çıkarma yöntemlerinin limitli olması sebebiyle, kelimelerin semantik
değerlerinin önceden eğitilmiş Word2Vec ağı ile sınıflandırmaya katılabilmesi
KSA modellerinin doğruluk değerlerini arttırmıştır.
In this study, a text classification study on the Turkish Text
Classification 3600 (TTC-3600) dataset was conducted using Convolutional Neural
Networks (CNN) and Word2Vec method and compared with the previous study using
the same dataset. In the study, two different CNN s were trained and tested on
the TTC-3600 raw and stuck with Zemberek software. CNN and Word2Vec method
showed better performance (93.3% accuracy) than classical statistical and
machine learning based classification algorithms. Due to the limited number of
natural language processing operations in Turkish and the limited feature
extraction methods in this area, the accuracy of the CNN models has increased
by allowing the semantic values of the words to be included in the
classification with the pre-trained Word2Vec network.
Primary Language | Turkish |
---|---|
Subjects | Computer Software |
Journal Section | Articles |
Authors | |
Publication Date | July 31, 2019 |
Submission Date | September 6, 2018 |
Published in Issue | Year 2019 |