Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması

Emrah Aydemir; Murat Işık; Türker Tuncer

doi:10.35234/fumbd.871986

Research Article

Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması

Year 2021, , 519 - 526, 15.09.2021

Emrah Aydemir , Murat Işık , Türker Tuncer

https://doi.org/10.35234/fumbd.871986

Cited By: 2

Abstract

Hızla gelişen teknoloji ile verilere erişmek oldukça kolaylaşmış ancak elde edilen bu veri yığınlarının işlenmesi ve analiz edilmesi ise büyük bir problem haline gelmiştir. Bu çalışmada çevrimiçi bir haber sitesinden metin halinde toplanan yazıların, metin madenciliği ile daha önceden belirlenmiş haber kategorilerine ayrılması sağlanmıştır. Metin halinde toplanan 2248 haber verisi için iki ayrı yöntem kullanılmış ve birinci yöntemde %95,24'ü ikinci yöntemde ise %99,86'sı doğru olarak sınıflandırılmıştır. Türkçe dilinin özgün yapısından kaynaklı sınıflandırma yapılmasının zorluğundan dolayı bu çalışma ileriki metin madenciliği uygulamaları için faydalı olacaktır. Ayrıca elde edilen sonuçlar, literatürde yer edinmiş benzer çalışmalar ile karşılaştırılarak analiz edilmiştir.

Keywords

metin madenciliği, veri madenciliği, metin sınıflandırma, naive bayes, makine öğrenmesi, random forest

References

Doğan K, Arslantekin S. “Büyük veri: önemi, yapısı ve günümüzdeki durum”. Ankara Üniversitesi Dil ve Tarih-Coğrafya Fakültesi Dergisi, 2016; 56(1), 15-36.
Gautam P, Singh YP, Shaikh P. “Significance and Importance of Data Mining for Marketing Analysis in Finance, Banking Sectors”. International Journal of Applied Research in Science and Engineering, 2017; 26-29.
Khedr AE, Yaseen N. “Predicting stock market behavior using data mining technique and news sentiment analysis”. International Journal of Intelligent Systems and Applications, 9(7), 2017; 22-30.
Martinez-Martin N, Insel TR, Dagum P, Greely HT, Cho MK, “Data mining for health: staking out the ethical territory of digital phenotyping”. NPJ digital medicine, 2018; 1(1), 1-5.
Bustince H, Herrera F, Montero J. Fuzzy Sets and Their Extensions: Representation, Aggregation and Models. 1th ed. Springer-Verlag Berlin Heidelberg, 2007.
Alsaidi, S. A., Sadeq, A. T., & Abdullah, H. S., English poems categorization using text mining and rough set theory. Bulletin of Electrical Engineering and Informatics, 2020, 9(4), 1701-1710.
Doğan UK, Arslantekin S. “Elektronik Belge Yönetimi, Dijital Arşivleme Sistemleri ve Büyük Veri”. Bilgi Sistemleri Ve Bilişim Yönetimi: Beklentiler Ve Yeni Yaklaşımlar, 2017; 65-80.
Monino JL, Sedkaoui S. Big Data, Open Data and Data Development. 3nd ed. London: ISTE Ltd., 2016.
Liu C, Wang W, Zhang Y, Dong Y, He F, Wu C. “Predicting the popularity of online news based on multivariate analysis”. IEEE International Conference on Computer and Information Technology (CIT), Helsinki, Finland, 21-23 Agust 2017.
Esiyok C, Kille B, Jain BJ, Hopfgartner F, Albayrak S. “Users' reading habits in online news portals”. 5th Information Interaction in Context Symposium, New York, U.S.A., 26-29 August 2014.
Sukiennik N, Hui P. “Inflo: News Categorization and Keyphrase Extraction for Implementation in an Aggregation System”. ArXiv, 2018; abs (1812.03781).
Yüksel A, Tan G. “Metin Madenciliği Teknikleri ile Sosyal Ağlarda Bilgi Keşfi”. Mühendislik Bilimleri ve Tasarım Dergisi, 2018; 6, 324-33.
Usmani, S., ve Shamsi, J. A., News Headlines Categorization Scheme for Unlabelled Data. In 2020 International Conference on Emerging Trends in Smart Technologies (ICETST), 1-6, IEEE, March 2020.
Acı Çİ, ve Çırak A, “Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması”. International Journal of InformaticsTechnologies, 2019; 12(3).
Dai Z, Taneja H, Huang R. “Fine-grained structure-based news genre categorization”. 2018 Events and Stories in the News Workshop, New Mexico, U.S.A, 20-21 August 2018.
Qiu X, Gong J, Huang X. “Overview of the NLPCC 2017 shared task: Chinese news headline categorization”. National CCF Conference on Natural Language Processing and Chinese Computing, Dalian, China, 8-12 November 2017.
Başkaya F, Aydin İ. “Haber metinlerinin farklı metin madenciliği yöntemleriyle sınıflandırılması”, International Artificial Intelligence and Data Processing Symposium (IDAP), 1-5, September 2017.
Toraman C, Can F, Koçberber S. “Developing a text categorization template for Turkish news portals”. International Symposium on Innovations in Intelligent Systems and Applications, 379-383, June 2011.
Krishnalal G, Rengarajan SB, Srinivasagan KG. “A new text mining approach based on HMM-SVM for web news classification”. International Journal of Computer Applications, 2010; 1(19), 98-104.
Lin KHY, Yang C, Chen HH. “What emotions do news articles trigger in their readers?”, 30th annual international ACM SIGIR conference on Research and development in information retrieval, Amsterdam, Holland 23-27 July 2007.
Kazawa H, Izumitani T, Taira H, Maeda E. “Maximal margin labeling for multi-topic text categorization”. Advances in neural information processing systems, 2005; 649-656.
Jo TC. “Text categorization with the concept of fuzzy set of informative keywords”. 1999 IEEE International Fuzzy Systems. Conference Proceedings, 99CH36315(2), 609-614, 22-25 August 1999.
https://websiteyonetimi.ahievran.edu.tr/_Dosyalar/Genel/HaberMetinleri.rar, E.T.:09.10.2020
https://weka.sourceforge.io/doc.dev/weka/classifiers/bayes/NaiveBayesMultinomialText.html, E.T.:09.10.2020
https://weka.sourceforge.io/doc.dev/weka/classifiers/trees/RandomForest.html, E.T.:09.10.2020
Arpacı, S. A., ve Kalıpsız, O. (2018). Yazılım Hata Sınıflandırmasında Farklı Naive Bayes Tekniklerin Kıyaslanması. Niğde Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi, 7(1), 1-13.
Aydoğan, E. (2008), Veri Madenciliğinde Sınıflandırma Problemleri İçin Evrimsel Algoritma Tabanlı Yeni Bir Yaklasım: Rough-Mep Algoritması. Doktora tezi, Gazi Üniversitesi, Ankara.
Skurichina, M. ve Duin, R. P. W. (2002). Bagging, boosting and the random subspace method for linear classifiers. Pattern Analysis and Applications, 5(2), 121–135. https://doi.org/10.1007/s100.440.200011
Korkem, E., (2013), Mikroarray Gen Ekspresyon Veri Setlerinde Random Forest ve Naıve Bayes Sınıflama Yöntemleri Yaklaşımı. Yüksek Lisans tezi, Hacettepe Üniversitesi, Ankara.
Korkem, E., (2013), Mikroarray Gen Ekspresyon Veri Setlerinde Random Forest ve Naıve Bayes Sınıflama Yöntemleri Yaklaşımı. Yüksek Lisans tezi, Hacettepe Üniversitesi, Ankara.
Zec, S., Soriani, N., Comoretto, R., & Baldi, I., Suppl-1, M5: high agreement and high prevalence: the paradox of Cohen’s Kappa. The open nursing journal, 2017, 11/211.

Year 2021, , 519 - 526, 15.09.2021

Emrah Aydemir , Murat Işık , Türker Tuncer

https://doi.org/10.35234/fumbd.871986

Cited By: 2

Abstract

References

Doğan K, Arslantekin S. “Büyük veri: önemi, yapısı ve günümüzdeki durum”. Ankara Üniversitesi Dil ve Tarih-Coğrafya Fakültesi Dergisi, 2016; 56(1), 15-36.
Gautam P, Singh YP, Shaikh P. “Significance and Importance of Data Mining for Marketing Analysis in Finance, Banking Sectors”. International Journal of Applied Research in Science and Engineering, 2017; 26-29.
Khedr AE, Yaseen N. “Predicting stock market behavior using data mining technique and news sentiment analysis”. International Journal of Intelligent Systems and Applications, 9(7), 2017; 22-30.
Martinez-Martin N, Insel TR, Dagum P, Greely HT, Cho MK, “Data mining for health: staking out the ethical territory of digital phenotyping”. NPJ digital medicine, 2018; 1(1), 1-5.
Bustince H, Herrera F, Montero J. Fuzzy Sets and Their Extensions: Representation, Aggregation and Models. 1th ed. Springer-Verlag Berlin Heidelberg, 2007.
Alsaidi, S. A., Sadeq, A. T., & Abdullah, H. S., English poems categorization using text mining and rough set theory. Bulletin of Electrical Engineering and Informatics, 2020, 9(4), 1701-1710.
Doğan UK, Arslantekin S. “Elektronik Belge Yönetimi, Dijital Arşivleme Sistemleri ve Büyük Veri”. Bilgi Sistemleri Ve Bilişim Yönetimi: Beklentiler Ve Yeni Yaklaşımlar, 2017; 65-80.
Monino JL, Sedkaoui S. Big Data, Open Data and Data Development. 3nd ed. London: ISTE Ltd., 2016.
Liu C, Wang W, Zhang Y, Dong Y, He F, Wu C. “Predicting the popularity of online news based on multivariate analysis”. IEEE International Conference on Computer and Information Technology (CIT), Helsinki, Finland, 21-23 Agust 2017.
Esiyok C, Kille B, Jain BJ, Hopfgartner F, Albayrak S. “Users' reading habits in online news portals”. 5th Information Interaction in Context Symposium, New York, U.S.A., 26-29 August 2014.
Sukiennik N, Hui P. “Inflo: News Categorization and Keyphrase Extraction for Implementation in an Aggregation System”. ArXiv, 2018; abs (1812.03781).
Yüksel A, Tan G. “Metin Madenciliği Teknikleri ile Sosyal Ağlarda Bilgi Keşfi”. Mühendislik Bilimleri ve Tasarım Dergisi, 2018; 6, 324-33.
Usmani, S., ve Shamsi, J. A., News Headlines Categorization Scheme for Unlabelled Data. In 2020 International Conference on Emerging Trends in Smart Technologies (ICETST), 1-6, IEEE, March 2020.
Acı Çİ, ve Çırak A, “Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması”. International Journal of InformaticsTechnologies, 2019; 12(3).
Dai Z, Taneja H, Huang R. “Fine-grained structure-based news genre categorization”. 2018 Events and Stories in the News Workshop, New Mexico, U.S.A, 20-21 August 2018.
Qiu X, Gong J, Huang X. “Overview of the NLPCC 2017 shared task: Chinese news headline categorization”. National CCF Conference on Natural Language Processing and Chinese Computing, Dalian, China, 8-12 November 2017.
Başkaya F, Aydin İ. “Haber metinlerinin farklı metin madenciliği yöntemleriyle sınıflandırılması”, International Artificial Intelligence and Data Processing Symposium (IDAP), 1-5, September 2017.
Toraman C, Can F, Koçberber S. “Developing a text categorization template for Turkish news portals”. International Symposium on Innovations in Intelligent Systems and Applications, 379-383, June 2011.
Krishnalal G, Rengarajan SB, Srinivasagan KG. “A new text mining approach based on HMM-SVM for web news classification”. International Journal of Computer Applications, 2010; 1(19), 98-104.
Lin KHY, Yang C, Chen HH. “What emotions do news articles trigger in their readers?”, 30th annual international ACM SIGIR conference on Research and development in information retrieval, Amsterdam, Holland 23-27 July 2007.
Kazawa H, Izumitani T, Taira H, Maeda E. “Maximal margin labeling for multi-topic text categorization”. Advances in neural information processing systems, 2005; 649-656.
Jo TC. “Text categorization with the concept of fuzzy set of informative keywords”. 1999 IEEE International Fuzzy Systems. Conference Proceedings, 99CH36315(2), 609-614, 22-25 August 1999.
https://websiteyonetimi.ahievran.edu.tr/_Dosyalar/Genel/HaberMetinleri.rar, E.T.:09.10.2020
https://weka.sourceforge.io/doc.dev/weka/classifiers/bayes/NaiveBayesMultinomialText.html, E.T.:09.10.2020
https://weka.sourceforge.io/doc.dev/weka/classifiers/trees/RandomForest.html, E.T.:09.10.2020
Arpacı, S. A., ve Kalıpsız, O. (2018). Yazılım Hata Sınıflandırmasında Farklı Naive Bayes Tekniklerin Kıyaslanması. Niğde Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi, 7(1), 1-13.
Aydoğan, E. (2008), Veri Madenciliğinde Sınıflandırma Problemleri İçin Evrimsel Algoritma Tabanlı Yeni Bir Yaklasım: Rough-Mep Algoritması. Doktora tezi, Gazi Üniversitesi, Ankara.
Skurichina, M. ve Duin, R. P. W. (2002). Bagging, boosting and the random subspace method for linear classifiers. Pattern Analysis and Applications, 5(2), 121–135. https://doi.org/10.1007/s100.440.200011
Korkem, E., (2013), Mikroarray Gen Ekspresyon Veri Setlerinde Random Forest ve Naıve Bayes Sınıflama Yöntemleri Yaklaşımı. Yüksek Lisans tezi, Hacettepe Üniversitesi, Ankara.
Korkem, E., (2013), Mikroarray Gen Ekspresyon Veri Setlerinde Random Forest ve Naıve Bayes Sınıflama Yöntemleri Yaklaşımı. Yüksek Lisans tezi, Hacettepe Üniversitesi, Ankara.
Zec, S., Soriani, N., Comoretto, R., & Baldi, I., Suppl-1, M5: high agreement and high prevalence: the paradox of Cohen’s Kappa. The open nursing journal, 2017, 11/211.

There are 31 citations in total.

Details

Primary Language	Turkish
Subjects	Engineering
Journal Section	MBD
Authors	Emrah Aydemir 0000-0002-8380-7891 Murat Işık 0000-0003-3200-1609 Türker Tuncer 0000-0002-1425-4664
Publication Date	September 15, 2021
Submission Date	January 31, 2021
Published in Issue	Year 2021

Cite

APA	Aydemir, E., Işık, M., & Tuncer, T. (2021). Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 33(2), 519-526. https://doi.org/10.35234/fumbd.871986
AMA	Aydemir E, Işık M, Tuncer T. Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. September 2021;33(2):519-526. doi:10.35234/fumbd.871986
Chicago	Aydemir, Emrah, Murat Işık, and Türker Tuncer. “Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33, no. 2 (September 2021): 519-26. https://doi.org/10.35234/fumbd.871986.
EndNote	Aydemir E, Işık M, Tuncer T (September 1, 2021) Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33 2 519–526.
IEEE	E. Aydemir, M. Işık, and T. Tuncer, “Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması”, Fırat Üniversitesi Mühendislik Bilimleri Dergisi, vol. 33, no. 2, pp. 519–526, 2021, doi: 10.35234/fumbd.871986.
ISNAD	Aydemir, Emrah et al. “Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33/2 (September 2021), 519-526. https://doi.org/10.35234/fumbd.871986.
JAMA	Aydemir E, Işık M, Tuncer T. Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2021;33:519–526.
MLA	Aydemir, Emrah et al. “Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, vol. 33, no. 2, 2021, pp. 519-26, doi:10.35234/fumbd.871986.
Vancouver	Aydemir E, Işık M, Tuncer T. Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2021;33(2):519-26.

Cited By

Classification of News Texts from Different Languages with Machine Learning Algorithms

Journal of Soft Computing and Artificial Intelligence

https://doi.org/10.55195/jscai.1311380

Destek Vektör Makineleri Algoritması ile Uçtan Uca Yazar Tanıma Uygulaması Geliştirme

El-Cezeri Fen ve Mühendislik Dergisi

https://doi.org/10.31202/ecjse.1134698

Article Files

Full Text