Research Article
BibTex RIS Cite

Improving the Performance of Sentiment Analysis by Ensemble Hybrid Learning Algorithm With NLP And Cascaded Feature Extraction

Year 2023, Volume: 35 Issue: 1, 125 - 141, 30.03.2023
https://doi.org/10.7240/jeps.1249586

Abstract

Sentiment analysis is a challenging problem in Natural Language Processing since every language has its own character within several difficulties such as ambiguity, synonymy, negative suffixes…etc. Since words with ambiguity can have different sentiment scores depending on the meaning they have in their corresponding context, we accomplished a study on Turkish language to determine whether the polarity scores of these polysemous words may differ according to their meaning. For a word with ambiguity, we first made a polarity calculation module to calculate its polarity score. This way, we calculated the polarity scores of 100 Turkish polysemous words. Then, since negation directly affects the correct meaning of the word in the sentiment analysis, a negation handler module is also implemented. After that, we prepared a sentiment polarity corpus which consists of 159,876 Turkish words including 100 Turkish polysemous words. Actually, the main purpose of this study is to detect sentiment polarity of Turkish texts by considering and building a specialized module for polysemous words. In short, we built a system for Turkish sentiment polarity detection task including these modules: 1) Pre-processing, 2) Polarity Calculation Module, 3) Negation Handling Module, 4) Feature Generation Module, and 5) Classification Module. According to our knowledge, this is the first study which includes all of these modules in one Turkish sentiment analysis task. Finally, we conducted this corpus using an ensemble hybrid regularized learning algorithm on two self-collected Twitter-datasets. Experimental results show that the suggested approach improves the classification performance on Turkish sentiment analysis task.

Supporting Institution

TÜBİTAK

Project Number

120E187

Thanks

This work is supported in part by The Scientific and Technological Research Council of Turkey (TÜBİTAK) grant number [120E187]. Points of view in this document are those of the authors and do not necessarily represent the official position or policies of TÜBİTAK.

References

  • [1] Navigli, R., Word sense disambiguation: A survey. ACM Comput Surv, 41(2), 1-69, (2009).
  • [2] Boyd-Graber, J., Blei, D. & Zhu, X.A. Topic model for word sense disambiguation. In Proceedings of the 2007 joint conference on empirical methods in natural language processing and computational natural language learning (EMNLP-CoNLL), Prague, (2007).
  • [3] Açıkgöz, O., Gürkan, A. T., Ertopçu, B., Topsakal, O., Özenç, B., Kanburoğlu, A. B., & Yıldız, O. T. All-words word sense disambiguation for Turkish. In International Conference on Computer Science and Engineering (UBMK), Antalya, Turkey, (2017).
  • [4] Orhan, Z., & Altan, Z. Effective features for disambiguation of Turkish verbs. Int J. Comp and Inf Eng, 1(7), 2264-2268, (2007).
  • [5] Gezici, G., & Yanıkoğlu, B. Sentiment analysis in Turkish. Turkish natural language processing, 255-271, (2018).
  • [6] Türkmenoglu, C., & Tantug, A. C. Sentiment analysis in Turkish media. In International Conference on Machine Learning (ICML), Beijing, China, (2014).
  • [7] Çetiner, M., Yıldırım, A., Onay, B., & Öksüz, C. Word Sense Disambiguation using KeNet. In 29th Signal Processing and Communications Applications Conference (SIU), Istanbul, Turkey, (2021).
  • [8] Mert, E., & Dalkilic, G. Word sense disambiguation for Turkish. In 24th International Symposium on Computer and Information Sciences, Cyprus, (2009).
  • [9] Aslan, D. B., Arıcan, B. N., Bayrak, T. A., Özbek, E. E., & Yıldız, O. T. Turizm Alanına Özgü Anlamsal Olarak Isaretlenmis Bir Derlem. An All-Words Sense Annotated Corpus for Tourism Domain. [cited 2023 March 1]. [10] Tüysüz, M. A., & Güvenoğlu, E. Türkçe için karşılaştırmalı bir kelime anlamı belirginleştirme uygulaması. In Proceedings of Akademik Bilişim Conferene, Mersin, (2014).
  • [11] Arslan, E., Orhan, U., & Tahiroğlu, B. T. Serbest Sırada Birliktelik İstatistiklerinin Kullanımıyla Türkçe'nin Biçimbirimsel Belirsizliği'nin Giderilmesi. Gümüşhane Üniversitesi Fen Bilimleri Dergisi, 46-52, (2018).
  • [12] Aydın, Ö., & Kılıçaslan, Y. Tümevarımlı Mantık Programlama İle Türkçe İçin Kelime Anlamı Belirginleştirme Uygulaması. In Proceedings of Akademik Bilişim Conferene, Muğla, (2010).
  • [13] Selamet, D. T., & Eryiğit, G. C. Veri Artırımı için Yarı-Denetimli Bağlamsal Anlam Belirsizliği Giderme. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 14(1), 34-46, (2021).
  • [14] Taşar, D. E., Özcan, C., & Koruyan, K. Autotrain Yaklaşımı ile Duygu Analizi. In Proceedings of USBILIM 2nd International Conference on Artifical Intelligence Studies, Ankara, (2022).
  • [15] Çılgın, C., Gökçen, H., & Gökşen, Y. Twitter’da COVID-19 aşılarına karşı kamu duyarlılığının çoğunluk oylama sınıflandırıcısı temelli makine öğrenmesi ile duygu analizi. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 38(2), 1093-1104, (2023).
  • [16] Balli, C., Guzel, M. S., Bostanci, E., & Mishra, A. Sentimental analysis of Twitter users from Turkish content with natural language processing. Comp Intel and Neurosci, 2022(3),1-18, (2022).
  • [17] Kirelli, Y., & Arslankaya, S. Sentiment analysis of shared tweets on global warming on twitter with data mining methods: a case study on Turkish language. Comp Intel and Neurosci, 2020(1),1-9, (2020).
  • [18] Akın, A. A., & Akın, M. D. Zemberek, an open source NLP framework for Turkic languages. Structure, 10(2007), 1-5, (2007).
  • [19] Günyaktı, R. İ., & Bursa, N. Covid-19 Pandemisinde Sağlık Çalışanları ve Öğretmenlere Yönelik Algının Duygu Analizi ile Twitter Verileri Üzerinden İncelenmesi. Selçuk İletişim, 15(1), 264-285, (2022).
  • [20] Kandıran, E., Gümüş, B., & Özer, M. A. Covid-19 pandemi sürecinde uzaktan eğitimin twitter yansımalarının duygu analizi. Int J Social Sci and Educ Res, 8(3), 228-242, (2022).
  • [21] Yüksel, A. S., & Tan, F. G. Metin madenciliği teknikleri ile sosyal ağlarda bilgi keşfi. Mühendislik Bilimleri ve Tasarım Dergisi, 6(2), 324-333, (2018).
  • [22] Köksal, A. Özgür. Twitter dataset and evaluation of transformers for Turkish sentiment analysis. In 2021 29th Signal Processing and Communications Applications Conference (SIU), Istanbul, Turkey, (2021). [23] Güran, M. Uysal, Ö. Doğrusöz. Destek vektör makineleri parametre optimizasyonunun duygu analizi üzerindeki etkisi. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, 16(48), 86-93, (2014). [24] Sağlam, F., Sever, H., & Genç, B. Developing Turkish sentiment lexicon for sentiment analysis using online news media. In IEEE/ACS 13th International Conference of Computer Systems and Applications (AICCSA), Morocco, (2016). [25] Altınel, A. B., Buzlu, K., & İpek, K. Performance Analysis of Different Sentiment Polarity Dictionaries on Turkish Sentiment Detection. In 2022 International Conference on INnovations in Intelligent SysTems and Applications (INISTA), Biarritz, France, (2022)
  • [26] Boser, B. E., Guyon, I. M., & Vapnik, V. N. A training algorithm for optimal margin classifiers. In Proceedings of the fifth annual workshop on Computational learning theory, New York, (1992).
  • [27] Berrar, D. Bayes’ theorem and naive Bayes classifier. Encyclopedia of Bioinformatics and Computational Biology: ABC of Bioinformatics, 403, 412, (2018).
  • [28] Jain, K. (2021). What is Naive Bayes? Published in Analytics Vidhya. [cited 2023 March 6]. [29] Breiman, L. Random Forests, Mach Learn, 1,5-32, (2001).
  • [30] Hochreiter, S., & Schmidhuber, J. Long short-term memory. Neural comput, 9(8), 1735-1780, (1997).
  • [31] Mikolov, T., Karafiát, M., Burget, L., Cernocký, J., & Khudanpur, S. Recurrent neural network based language model. In Interspeech, (2),3, 1045-1048, (2010).
  • [32] Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. R. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, (2012).
  • [33] Belkin, M., Niyogi, P., & Sindhwani, V. Manifold regularization: A geometric framework for learning from labeled and unlabeled examples. Jour of machine learning research, 7(11), (2006).
  • [34] Belkin, M., Matveeva, I., & Niyogi, P. Regularization and semi-supervised learning on large graphs. In Proceedings of Learning Theory: 17th Annual Conference on Learning Theory, COLT, Banff, Canada, (2004).
  • [35] Kara, A. Global solar irradiance time series prediction using long short-term memory network. Gazi Üniversitesi Fen Bilimleri Dergisi, Part C: Tasarım ve Teknoloji, 4(7), 882-892, (2019).

Topluluk Hibrit Öğrenme Algoritması Kullanılarak DDI ve Özellik Çıkarma İle Duygu Analizinin Performansının İyileştirilmesi

Year 2023, Volume: 35 Issue: 1, 125 - 141, 30.03.2023
https://doi.org/10.7240/jeps.1249586

Abstract

Her doğal dilin belirsizlik, eşanlamlılık, olumsuz ekler vb. gibi çeşitli zorluklar içeren bir karakterinin olmasından ötürü Duygu Analizi, Doğal Dil İşleme'de zorlu bir problemdir. Belirsizlik içeren eşsesli sözcükler, bulundukları bağlamdaki anlamlarına göre farklı duygu polaritesi puanlarına sahip olabildiği için, bu eşsesli sözcüklerin anlamlarına göre farklı duygu polaritesi puanları aldıklarını analiz eden Türkçe üzerine bir çalışma gerçekleştirdik. Belirsizliği olan bir kelime için, polarite puanını hesaplamak için önce bir polarite hesaplama modülü yaptık. Bu şekilde 100 Türkçe eşsesli kelimenin polarite puanlarını hesapladık. Ardından, duygu analizinde olumsuzlama kelimenin doğru anlamını doğrudan etkilediğinden, olumsuzluk işleyici modülü de gerçekleştirdik. Daha sonra 100 Türkçe eşsesli kelime olmak üzere 159.876 Türkçe kelimeden oluşan duygu polaritesi sözlüğü hazırladık. Aslında bu çalışmanın temel amacı, eşsesli sözcükler için özel bir modül oluşturarak Türkçe metinlerdeki duygu polaritesini tespit etmektir. Kısaca, Türkçe duygu polarite tespiti görevi için şu modülleri içeren bir sistem kurduk: 1) Ön işleme, 2) Polarite Hesaplama Modülü, 3) Olumsuzlama Modülü, 4) Özellik Oluşturma Modülü ve 5) Sınıflandırma Modülü. Bildiğimiz kadarıyla bu çalışma, Türkçe duygu analizi görevi için tüm bu modülleri bir arada içeren ilk çalışmadır. Son olarak, bu sözlüğü, kendi topladığımız iki Twitter veri kümesinde bir topluluk hibrit öğrenme algoritması kullanarak analiz ettik. Deneysel sonuçlar, önerilen yaklaşımın Türkçe duygu analizi görevinde sınıflandırma performansını arttırdığını göstermektedir.

Project Number

120E187

References

  • [1] Navigli, R., Word sense disambiguation: A survey. ACM Comput Surv, 41(2), 1-69, (2009).
  • [2] Boyd-Graber, J., Blei, D. & Zhu, X.A. Topic model for word sense disambiguation. In Proceedings of the 2007 joint conference on empirical methods in natural language processing and computational natural language learning (EMNLP-CoNLL), Prague, (2007).
  • [3] Açıkgöz, O., Gürkan, A. T., Ertopçu, B., Topsakal, O., Özenç, B., Kanburoğlu, A. B., & Yıldız, O. T. All-words word sense disambiguation for Turkish. In International Conference on Computer Science and Engineering (UBMK), Antalya, Turkey, (2017).
  • [4] Orhan, Z., & Altan, Z. Effective features for disambiguation of Turkish verbs. Int J. Comp and Inf Eng, 1(7), 2264-2268, (2007).
  • [5] Gezici, G., & Yanıkoğlu, B. Sentiment analysis in Turkish. Turkish natural language processing, 255-271, (2018).
  • [6] Türkmenoglu, C., & Tantug, A. C. Sentiment analysis in Turkish media. In International Conference on Machine Learning (ICML), Beijing, China, (2014).
  • [7] Çetiner, M., Yıldırım, A., Onay, B., & Öksüz, C. Word Sense Disambiguation using KeNet. In 29th Signal Processing and Communications Applications Conference (SIU), Istanbul, Turkey, (2021).
  • [8] Mert, E., & Dalkilic, G. Word sense disambiguation for Turkish. In 24th International Symposium on Computer and Information Sciences, Cyprus, (2009).
  • [9] Aslan, D. B., Arıcan, B. N., Bayrak, T. A., Özbek, E. E., & Yıldız, O. T. Turizm Alanına Özgü Anlamsal Olarak Isaretlenmis Bir Derlem. An All-Words Sense Annotated Corpus for Tourism Domain. [cited 2023 March 1]. [10] Tüysüz, M. A., & Güvenoğlu, E. Türkçe için karşılaştırmalı bir kelime anlamı belirginleştirme uygulaması. In Proceedings of Akademik Bilişim Conferene, Mersin, (2014).
  • [11] Arslan, E., Orhan, U., & Tahiroğlu, B. T. Serbest Sırada Birliktelik İstatistiklerinin Kullanımıyla Türkçe'nin Biçimbirimsel Belirsizliği'nin Giderilmesi. Gümüşhane Üniversitesi Fen Bilimleri Dergisi, 46-52, (2018).
  • [12] Aydın, Ö., & Kılıçaslan, Y. Tümevarımlı Mantık Programlama İle Türkçe İçin Kelime Anlamı Belirginleştirme Uygulaması. In Proceedings of Akademik Bilişim Conferene, Muğla, (2010).
  • [13] Selamet, D. T., & Eryiğit, G. C. Veri Artırımı için Yarı-Denetimli Bağlamsal Anlam Belirsizliği Giderme. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 14(1), 34-46, (2021).
  • [14] Taşar, D. E., Özcan, C., & Koruyan, K. Autotrain Yaklaşımı ile Duygu Analizi. In Proceedings of USBILIM 2nd International Conference on Artifical Intelligence Studies, Ankara, (2022).
  • [15] Çılgın, C., Gökçen, H., & Gökşen, Y. Twitter’da COVID-19 aşılarına karşı kamu duyarlılığının çoğunluk oylama sınıflandırıcısı temelli makine öğrenmesi ile duygu analizi. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 38(2), 1093-1104, (2023).
  • [16] Balli, C., Guzel, M. S., Bostanci, E., & Mishra, A. Sentimental analysis of Twitter users from Turkish content with natural language processing. Comp Intel and Neurosci, 2022(3),1-18, (2022).
  • [17] Kirelli, Y., & Arslankaya, S. Sentiment analysis of shared tweets on global warming on twitter with data mining methods: a case study on Turkish language. Comp Intel and Neurosci, 2020(1),1-9, (2020).
  • [18] Akın, A. A., & Akın, M. D. Zemberek, an open source NLP framework for Turkic languages. Structure, 10(2007), 1-5, (2007).
  • [19] Günyaktı, R. İ., & Bursa, N. Covid-19 Pandemisinde Sağlık Çalışanları ve Öğretmenlere Yönelik Algının Duygu Analizi ile Twitter Verileri Üzerinden İncelenmesi. Selçuk İletişim, 15(1), 264-285, (2022).
  • [20] Kandıran, E., Gümüş, B., & Özer, M. A. Covid-19 pandemi sürecinde uzaktan eğitimin twitter yansımalarının duygu analizi. Int J Social Sci and Educ Res, 8(3), 228-242, (2022).
  • [21] Yüksel, A. S., & Tan, F. G. Metin madenciliği teknikleri ile sosyal ağlarda bilgi keşfi. Mühendislik Bilimleri ve Tasarım Dergisi, 6(2), 324-333, (2018).
  • [22] Köksal, A. Özgür. Twitter dataset and evaluation of transformers for Turkish sentiment analysis. In 2021 29th Signal Processing and Communications Applications Conference (SIU), Istanbul, Turkey, (2021). [23] Güran, M. Uysal, Ö. Doğrusöz. Destek vektör makineleri parametre optimizasyonunun duygu analizi üzerindeki etkisi. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, 16(48), 86-93, (2014). [24] Sağlam, F., Sever, H., & Genç, B. Developing Turkish sentiment lexicon for sentiment analysis using online news media. In IEEE/ACS 13th International Conference of Computer Systems and Applications (AICCSA), Morocco, (2016). [25] Altınel, A. B., Buzlu, K., & İpek, K. Performance Analysis of Different Sentiment Polarity Dictionaries on Turkish Sentiment Detection. In 2022 International Conference on INnovations in Intelligent SysTems and Applications (INISTA), Biarritz, France, (2022)
  • [26] Boser, B. E., Guyon, I. M., & Vapnik, V. N. A training algorithm for optimal margin classifiers. In Proceedings of the fifth annual workshop on Computational learning theory, New York, (1992).
  • [27] Berrar, D. Bayes’ theorem and naive Bayes classifier. Encyclopedia of Bioinformatics and Computational Biology: ABC of Bioinformatics, 403, 412, (2018).
  • [28] Jain, K. (2021). What is Naive Bayes? Published in Analytics Vidhya. [cited 2023 March 6]. [29] Breiman, L. Random Forests, Mach Learn, 1,5-32, (2001).
  • [30] Hochreiter, S., & Schmidhuber, J. Long short-term memory. Neural comput, 9(8), 1735-1780, (1997).
  • [31] Mikolov, T., Karafiát, M., Burget, L., Cernocký, J., & Khudanpur, S. Recurrent neural network based language model. In Interspeech, (2),3, 1045-1048, (2010).
  • [32] Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. R. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, (2012).
  • [33] Belkin, M., Niyogi, P., & Sindhwani, V. Manifold regularization: A geometric framework for learning from labeled and unlabeled examples. Jour of machine learning research, 7(11), (2006).
  • [34] Belkin, M., Matveeva, I., & Niyogi, P. Regularization and semi-supervised learning on large graphs. In Proceedings of Learning Theory: 17th Annual Conference on Learning Theory, COLT, Banff, Canada, (2004).
  • [35] Kara, A. Global solar irradiance time series prediction using long short-term memory network. Gazi Üniversitesi Fen Bilimleri Dergisi, Part C: Tasarım ve Teknoloji, 4(7), 882-892, (2019).
There are 30 citations in total.

Details

Primary Language English
Subjects Engineering
Journal Section Research Articles
Authors

Ayşe Berna Altınel Girgin 0000-0001-5544-0925

Sema Şahin 0000-0002-5652-9363

Project Number 120E187
Early Pub Date March 29, 2023
Publication Date March 30, 2023
Published in Issue Year 2023 Volume: 35 Issue: 1

Cite

APA Altınel Girgin, A. B., & Şahin, S. (2023). Improving the Performance of Sentiment Analysis by Ensemble Hybrid Learning Algorithm With NLP And Cascaded Feature Extraction. International Journal of Advances in Engineering and Pure Sciences, 35(1), 125-141. https://doi.org/10.7240/jeps.1249586
AMA Altınel Girgin AB, Şahin S. Improving the Performance of Sentiment Analysis by Ensemble Hybrid Learning Algorithm With NLP And Cascaded Feature Extraction. JEPS. March 2023;35(1):125-141. doi:10.7240/jeps.1249586
Chicago Altınel Girgin, Ayşe Berna, and Sema Şahin. “Improving the Performance of Sentiment Analysis by Ensemble Hybrid Learning Algorithm With NLP And Cascaded Feature Extraction”. International Journal of Advances in Engineering and Pure Sciences 35, no. 1 (March 2023): 125-41. https://doi.org/10.7240/jeps.1249586.
EndNote Altınel Girgin AB, Şahin S (March 1, 2023) Improving the Performance of Sentiment Analysis by Ensemble Hybrid Learning Algorithm With NLP And Cascaded Feature Extraction. International Journal of Advances in Engineering and Pure Sciences 35 1 125–141.
IEEE A. B. Altınel Girgin and S. Şahin, “Improving the Performance of Sentiment Analysis by Ensemble Hybrid Learning Algorithm With NLP And Cascaded Feature Extraction”, JEPS, vol. 35, no. 1, pp. 125–141, 2023, doi: 10.7240/jeps.1249586.
ISNAD Altınel Girgin, Ayşe Berna - Şahin, Sema. “Improving the Performance of Sentiment Analysis by Ensemble Hybrid Learning Algorithm With NLP And Cascaded Feature Extraction”. International Journal of Advances in Engineering and Pure Sciences 35/1 (March 2023), 125-141. https://doi.org/10.7240/jeps.1249586.
JAMA Altınel Girgin AB, Şahin S. Improving the Performance of Sentiment Analysis by Ensemble Hybrid Learning Algorithm With NLP And Cascaded Feature Extraction. JEPS. 2023;35:125–141.
MLA Altınel Girgin, Ayşe Berna and Sema Şahin. “Improving the Performance of Sentiment Analysis by Ensemble Hybrid Learning Algorithm With NLP And Cascaded Feature Extraction”. International Journal of Advances in Engineering and Pure Sciences, vol. 35, no. 1, 2023, pp. 125-41, doi:10.7240/jeps.1249586.
Vancouver Altınel Girgin AB, Şahin S. Improving the Performance of Sentiment Analysis by Ensemble Hybrid Learning Algorithm With NLP And Cascaded Feature Extraction. JEPS. 2023;35(1):125-41.