GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması
Yıl 2023,
, 175 - 187, 30.06.2023
Hulya Hark
,
Meral Karakurt
,
Cengiz Hark
,
Ali Karci
Öz
Dijital haberlerin artan miktarları, istenilen türdeki haberlere doğru ve hızlı bir şekilde erişim için haber metinlerinin kategorilere ayrılmasını gerektirmektedir. Bu çalışmada, ön-eğitimli kelime gömülmelerinin, Uzun Ömürlü Kısa Dönem Bellek Ağı (Long-Short Term Memory, LSTM) ve Evrişimsel Sinir Ağları (Convolutional Neural Network, CNN) gibi derin öğrenme modelleri üzerindeki etkisi araştırılmaktadır. Global Vektör (GloVe) kelime gömülmelerinden alınan bağlamsal temsilleri girdi olarak alan LSTM ve CNN ağları kullanılarak haber metinleri sınıflandırılmıştır. Kapsamlı ve karşılaştırmalı araştırmaların eksikliği nedeniyle GloVe gömme katmanı tarafından sağlanan bağlamsal temsiller farklı sınıflandırıcılar ve veri setleri üzerinde test edilmektedir. Deneysel süreçler boyunca Türkçe Haber başlıklarından oluşan Turkish Headlines veri seti ve BBC News Classification veri setleri kullanılmıştır. Kelime gömülmelerinin ağlar üzerindeki etkisini ortaya koymak için deneysel süreçler aynı parametreler ile tekrarlanmıştır. LSTM modelinde Glove kelime gömülme yöntemi kullanıldığında modelin başarısının %81’den %91’e çıktığı gözlemlenmektedir. CNN modelinde ise Glove kelime gömülmelerinin modelin başarısının olumlu yansımadığı görülmektedir.
Kaynakça
- Aci, Ç. & Çirak, A. (2019). Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması. Bilişim Teknolojileri Dergisi, 12(3), 219-228. DOI: 10.17671/gazibtd.457917.
- Adalı, E. (2016). Doğal Dil İşleme . Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi , 5 (2) , . Retrieved from https://dergipark.org.tr/tr/pub/tbbmd/issue/22245/238797.
- Amasyalı, M. F., Diri, B. and Türkoğlu, F. (2006). “Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi”, 15th Turkish Symposium on Artificial Intelligence and Neural Network, Muğla, Türkiye.
- Aydoğan, M. & Karci, A.(2019a). "Turkish Text Classification with Machine Learning and Transfer Learning," 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), Malatya, Turkey, pp. 1-6, doi: 10.1109/IDAP.2019.8875919.
- Aydoğan, M. & Karcı, A. (2019b). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196.
- Bose, B. (2019). BBC News Classification. Kaggle. https://kaggle.com/competitions/learn-ai-bbc
- Darbaş, H. & Karci, A. (2020). Graf Benzerliği İle Metin Kıyaslama. Computer Science , 5 (2), 114-125 . Retrieved from https://dergipark.org.tr/tr/pub/bbd/issue/57870/743751.
- Diri, B. & Amasyalı, M.F. (2003). Automatic Author Detection for Turkish Texts, Artificial Neural Networks and Neural Information Processing, 138-141.
- Doğan, S. & Diri, B. (2010). Türkçe Dokümanlar İçin N-gram Tabanlı Yeni Bir Sınıflandırma(Ng-ind): Yazar, Tür ve Cinsiyet” Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 3, 11–20.
- Hark, C. (2022). Sahte Haber Tespiti için Derin Bağlamsal Kelime Gömülmeleri ve Sinirsel Ağların Performans Değerlendirmesi. Fırat Üniversitesi Müh. Bil. Dergisi, 34(2), 733-742.
- Karakurt, M. (2019). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Samsun.
- Karakurt, M. & İşeri, İ. (2022). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi, (33), 192-206.
- Karakurt, M., Oymak, E.A., Hark, H., Erdoğan, M.C. & Karcı, A. (2022). "Karcı Sinir Ağlarının Uygulaması ve Performans Analizi". Computer Science, Vol:7, 68-80.
- LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. and Jackel, L. D. 1989.
Backpropagation applied to handwritten zip code recognition. Neural computation, 1:4, 541-551.
- LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P. 1998. Gradientbased learning applied to document recognition. Proceedings of the IEEE, 86:11, 2278-2324.
- Levent, V. & Diri, B., (2014). Türkçe Dokümanlarda Yapay Sinir ağları ile Yazar Tanıma . Akademik Bilişim (pp.1-5). Mersin, Türkiye.
- McCulloch, W. S. and Pitts, W. 1943. A Logical Calculus of the İdeas İmmanent in Nervous Activity. The Bulletin of Mathematical Biophysics, 5:4, 115-133.
- Mikolov T., Chen K., Corrado G. and Dean J. (2013). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR. Scottsdale, Arizona.
- Rosenblatt, F. 1958. The Perceptron: A Probabilistic Model for Information Storage And Organization in the Brain. Psychological review, 65:6, 386.
- Süzen, A.A., (2019). LSTM Derin Sinir Ağları İle Üniversite Giriş Sınavındaki Matematik Soru Sayılarının Konulara Göre Tahmini, Engineering Sciences (NWSAENS), 14(3):112-118, DOI: 10.12739/NWSA.2019.14.3.1A0436.
- Şeker, S.E., (2015), Doğal Dil İşleme (Natural Language Processing), YBS Ansiklopedi, 2(4), 2015.
- UCI Machine Learning Repository: Turkish Headlines Dataset Data Set. (2021). Retrieved July 6, 2022, from https://archive.ics.uci.edu/ml/datasets/Turkish+Headlines+Dataset
- Uçkan, T., Hark, C., Seyyarer E. & Karcı A. (2019). Ağırlıklandırılmış Çizgelerde Tf-Idf ve Eigen Ayrışımı Kullanarak Metin Sınıflandırma. Bitlis Eren Üniversitesi Fen Bilimleri Dergisi, 8(4):1349-1362, doi:10.17798/bitlisfen.53122.
Classification of News Texts with GloVe Word Embeddings and Neural Networks
Yıl 2023,
, 175 - 187, 30.06.2023
Hulya Hark
,
Meral Karakurt
,
Cengiz Hark
,
Ali Karci
Öz
Dijital haberlerin artan miktarları, istenilen türdeki haberlere doğru ve hızlı bir şekilde erişim için haber metinlerinin kategorilere ayrılmasını gerektirmektedir. Bu çalışmada, ön-eğitimli kelime gömülmelerinin, Uzun Ömürlü Kısa Dönem Bellek Ağı (Long-Short Term Memory, LSTM) ve Evrişimsel Sinir Ağları (Convolutional Neural Network, CNN) gibi derin öğrenme modelleri üzerindeki etkisi araştırılmaktadır. Global Vektör (GloVe) kelime gömülmelerinden alınan bağlamsal temsilleri girdi olarak alan LSTM ve CNN ağları kullanılarak haber metinleri sınıflandırılmıştır. Kapsamlı ve karşılaştırmalı araştırmaların eksikliği nedeniyle GloVe gömme katmanı tarafından sağlanan bağlamsal temsiller farklı sınıflandırıcılar ve veri setleri üzerinde test edilmektedir. Deneysel süreçler boyunca Türkçe Haber başlıklarından oluşan Turkish Headlines veri seti ve BBC News Classification veri setleri kullanılmıştır. Kelime gömülmelerinin ağlar üzerindeki etkisini ortaya koymak için deneysel süreçler aynı parametreler ile tekrarlanmıştır. LSTM modelinde Glove kelime gömülme yöntemi kullanıldığında modelin başarısının %81’den %91’e çıktığı gözlemlenmektedir. CNN modelinde ise Glove kelime gömülmelerinin modelin başarısının olumlu yansımadığı görülmektedir.
Kaynakça
- Aci, Ç. & Çirak, A. (2019). Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması. Bilişim Teknolojileri Dergisi, 12(3), 219-228. DOI: 10.17671/gazibtd.457917.
- Adalı, E. (2016). Doğal Dil İşleme . Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi , 5 (2) , . Retrieved from https://dergipark.org.tr/tr/pub/tbbmd/issue/22245/238797.
- Amasyalı, M. F., Diri, B. and Türkoğlu, F. (2006). “Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi”, 15th Turkish Symposium on Artificial Intelligence and Neural Network, Muğla, Türkiye.
- Aydoğan, M. & Karci, A.(2019a). "Turkish Text Classification with Machine Learning and Transfer Learning," 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), Malatya, Turkey, pp. 1-6, doi: 10.1109/IDAP.2019.8875919.
- Aydoğan, M. & Karcı, A. (2019b). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196.
- Bose, B. (2019). BBC News Classification. Kaggle. https://kaggle.com/competitions/learn-ai-bbc
- Darbaş, H. & Karci, A. (2020). Graf Benzerliği İle Metin Kıyaslama. Computer Science , 5 (2), 114-125 . Retrieved from https://dergipark.org.tr/tr/pub/bbd/issue/57870/743751.
- Diri, B. & Amasyalı, M.F. (2003). Automatic Author Detection for Turkish Texts, Artificial Neural Networks and Neural Information Processing, 138-141.
- Doğan, S. & Diri, B. (2010). Türkçe Dokümanlar İçin N-gram Tabanlı Yeni Bir Sınıflandırma(Ng-ind): Yazar, Tür ve Cinsiyet” Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 3, 11–20.
- Hark, C. (2022). Sahte Haber Tespiti için Derin Bağlamsal Kelime Gömülmeleri ve Sinirsel Ağların Performans Değerlendirmesi. Fırat Üniversitesi Müh. Bil. Dergisi, 34(2), 733-742.
- Karakurt, M. (2019). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Samsun.
- Karakurt, M. & İşeri, İ. (2022). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi, (33), 192-206.
- Karakurt, M., Oymak, E.A., Hark, H., Erdoğan, M.C. & Karcı, A. (2022). "Karcı Sinir Ağlarının Uygulaması ve Performans Analizi". Computer Science, Vol:7, 68-80.
- LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. and Jackel, L. D. 1989.
Backpropagation applied to handwritten zip code recognition. Neural computation, 1:4, 541-551.
- LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P. 1998. Gradientbased learning applied to document recognition. Proceedings of the IEEE, 86:11, 2278-2324.
- Levent, V. & Diri, B., (2014). Türkçe Dokümanlarda Yapay Sinir ağları ile Yazar Tanıma . Akademik Bilişim (pp.1-5). Mersin, Türkiye.
- McCulloch, W. S. and Pitts, W. 1943. A Logical Calculus of the İdeas İmmanent in Nervous Activity. The Bulletin of Mathematical Biophysics, 5:4, 115-133.
- Mikolov T., Chen K., Corrado G. and Dean J. (2013). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR. Scottsdale, Arizona.
- Rosenblatt, F. 1958. The Perceptron: A Probabilistic Model for Information Storage And Organization in the Brain. Psychological review, 65:6, 386.
- Süzen, A.A., (2019). LSTM Derin Sinir Ağları İle Üniversite Giriş Sınavındaki Matematik Soru Sayılarının Konulara Göre Tahmini, Engineering Sciences (NWSAENS), 14(3):112-118, DOI: 10.12739/NWSA.2019.14.3.1A0436.
- Şeker, S.E., (2015), Doğal Dil İşleme (Natural Language Processing), YBS Ansiklopedi, 2(4), 2015.
- UCI Machine Learning Repository: Turkish Headlines Dataset Data Set. (2021). Retrieved July 6, 2022, from https://archive.ics.uci.edu/ml/datasets/Turkish+Headlines+Dataset
- Uçkan, T., Hark, C., Seyyarer E. & Karcı A. (2019). Ağırlıklandırılmış Çizgelerde Tf-Idf ve Eigen Ayrışımı Kullanarak Metin Sınıflandırma. Bitlis Eren Üniversitesi Fen Bilimleri Dergisi, 8(4):1349-1362, doi:10.17798/bitlisfen.53122.