Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması
Year 2021,
, 519 - 526, 15.09.2021
Emrah Aydemir
,
Murat Işık
,
Türker Tuncer
Abstract
Hızla gelişen teknoloji ile verilere erişmek oldukça kolaylaşmış ancak elde edilen bu veri yığınlarının işlenmesi ve analiz edilmesi ise büyük bir problem haline gelmiştir. Bu çalışmada çevrimiçi bir haber sitesinden metin halinde toplanan yazıların, metin madenciliği ile daha önceden belirlenmiş haber kategorilerine ayrılması sağlanmıştır. Metin halinde toplanan 2248 haber verisi için iki ayrı yöntem kullanılmış ve birinci yöntemde %95,24'ü ikinci yöntemde ise %99,86'sı doğru olarak sınıflandırılmıştır. Türkçe dilinin özgün yapısından kaynaklı sınıflandırma yapılmasının zorluğundan dolayı bu çalışma ileriki metin madenciliği uygulamaları için faydalı olacaktır. Ayrıca elde edilen sonuçlar, literatürde yer edinmiş benzer çalışmalar ile karşılaştırılarak analiz edilmiştir.
References
- Doğan K, Arslantekin S. “Büyük veri: önemi, yapısı ve günümüzdeki durum”. Ankara Üniversitesi Dil ve Tarih-Coğrafya Fakültesi Dergisi, 2016; 56(1), 15-36.
- Gautam P, Singh YP, Shaikh P. “Significance and Importance of Data Mining for Marketing Analysis in Finance, Banking Sectors”. International Journal of Applied Research in Science and Engineering, 2017; 26-29.
- Khedr AE, Yaseen N. “Predicting stock market behavior using data mining technique and news sentiment analysis”. International Journal of Intelligent Systems and Applications, 9(7), 2017; 22-30.
- Martinez-Martin N, Insel TR, Dagum P, Greely HT, Cho MK, “Data mining for health: staking out the ethical territory of digital phenotyping”. NPJ digital medicine, 2018; 1(1), 1-5.
- Bustince H, Herrera F, Montero J. Fuzzy Sets and Their Extensions: Representation, Aggregation and Models. 1th ed. Springer-Verlag Berlin Heidelberg, 2007.
- Alsaidi, S. A., Sadeq, A. T., & Abdullah, H. S., English poems categorization using text mining and rough set theory. Bulletin of Electrical Engineering and Informatics, 2020, 9(4), 1701-1710.
- Doğan UK, Arslantekin S. “Elektronik Belge Yönetimi, Dijital Arşivleme Sistemleri ve Büyük Veri”. Bilgi Sistemleri Ve Bilişim Yönetimi: Beklentiler Ve Yeni Yaklaşımlar, 2017; 65-80.
- Monino JL, Sedkaoui S. Big Data, Open Data and Data Development. 3nd ed. London: ISTE Ltd., 2016.
- Liu C, Wang W, Zhang Y, Dong Y, He F, Wu C. “Predicting the popularity of online news based on multivariate analysis”. IEEE International Conference on Computer and Information Technology (CIT), Helsinki, Finland, 21-23 Agust 2017.
- Esiyok C, Kille B, Jain BJ, Hopfgartner F, Albayrak S. “Users' reading habits in online news portals”. 5th Information Interaction in Context Symposium, New York, U.S.A., 26-29 August 2014.
- Sukiennik N, Hui P. “Inflo: News Categorization and Keyphrase Extraction for Implementation in an Aggregation System”. ArXiv, 2018; abs (1812.03781).
- Yüksel A, Tan G. “Metin Madenciliği Teknikleri ile Sosyal Ağlarda Bilgi Keşfi”. Mühendislik Bilimleri ve Tasarım Dergisi, 2018; 6, 324-33.
- Usmani, S., ve Shamsi, J. A., News Headlines Categorization Scheme for Unlabelled Data. In 2020 International Conference on Emerging Trends in Smart Technologies (ICETST), 1-6, IEEE, March 2020.
- Acı Çİ, ve Çırak A, “Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması”. International Journal of InformaticsTechnologies, 2019; 12(3).
- Dai Z, Taneja H, Huang R. “Fine-grained structure-based news genre categorization”. 2018 Events and Stories in the News Workshop, New Mexico, U.S.A, 20-21 August 2018.
- Qiu X, Gong J, Huang X. “Overview of the NLPCC 2017 shared task: Chinese news headline categorization”. National CCF Conference on Natural Language Processing and Chinese Computing, Dalian, China, 8-12 November 2017.
- Başkaya F, Aydin İ. “Haber metinlerinin farklı metin madenciliği yöntemleriyle sınıflandırılması”, International Artificial Intelligence and Data Processing Symposium (IDAP), 1-5, September 2017.
- Toraman C, Can F, Koçberber S. “Developing a text categorization template for Turkish news portals”. International Symposium on Innovations in Intelligent Systems and Applications, 379-383, June 2011.
- Krishnalal G, Rengarajan SB, Srinivasagan KG. “A new text mining approach based on HMM-SVM for web news classification”. International Journal of Computer Applications, 2010; 1(19), 98-104.
- Lin KHY, Yang C, Chen HH. “What emotions do news articles trigger in their readers?”, 30th annual international ACM SIGIR conference on Research and development in information retrieval, Amsterdam, Holland 23-27 July 2007.
- Kazawa H, Izumitani T, Taira H, Maeda E. “Maximal margin labeling for multi-topic text categorization”. Advances in neural information processing systems, 2005; 649-656.
- Jo TC. “Text categorization with the concept of fuzzy set of informative keywords”. 1999 IEEE International Fuzzy Systems. Conference Proceedings, 99CH36315(2), 609-614, 22-25 August 1999.
- https://websiteyonetimi.ahievran.edu.tr/_Dosyalar/Genel/HaberMetinleri.rar, E.T.:09.10.2020
- https://weka.sourceforge.io/doc.dev/weka/classifiers/bayes/NaiveBayesMultinomialText.html, E.T.:09.10.2020
- https://weka.sourceforge.io/doc.dev/weka/classifiers/trees/RandomForest.html, E.T.:09.10.2020
- Arpacı, S. A., ve Kalıpsız, O. (2018). Yazılım Hata Sınıflandırmasında Farklı Naive Bayes Tekniklerin Kıyaslanması. Niğde Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi, 7(1), 1-13.
- Aydoğan, E. (2008), Veri Madenciliğinde Sınıflandırma Problemleri İçin Evrimsel Algoritma Tabanlı Yeni Bir Yaklasım: Rough-Mep Algoritması. Doktora tezi, Gazi Üniversitesi, Ankara.
- Skurichina, M. ve Duin, R. P. W. (2002). Bagging, boosting and the random subspace method for linear classifiers. Pattern Analysis and Applications, 5(2), 121–135. https://doi.org/10.1007/s100.440.200011
- Korkem, E., (2013), Mikroarray Gen Ekspresyon Veri Setlerinde Random Forest ve Naıve Bayes Sınıflama Yöntemleri Yaklaşımı. Yüksek Lisans tezi, Hacettepe Üniversitesi, Ankara.
- Korkem, E., (2013), Mikroarray Gen Ekspresyon Veri Setlerinde Random Forest ve Naıve Bayes Sınıflama Yöntemleri Yaklaşımı. Yüksek Lisans tezi, Hacettepe Üniversitesi, Ankara.
- Zec, S., Soriani, N., Comoretto, R., & Baldi, I., Suppl-1, M5: high agreement and high prevalence: the paradox of Cohen’s Kappa. The open nursing journal, 2017, 11/211.
Year 2021,
, 519 - 526, 15.09.2021
Emrah Aydemir
,
Murat Işık
,
Türker Tuncer
References
- Doğan K, Arslantekin S. “Büyük veri: önemi, yapısı ve günümüzdeki durum”. Ankara Üniversitesi Dil ve Tarih-Coğrafya Fakültesi Dergisi, 2016; 56(1), 15-36.
- Gautam P, Singh YP, Shaikh P. “Significance and Importance of Data Mining for Marketing Analysis in Finance, Banking Sectors”. International Journal of Applied Research in Science and Engineering, 2017; 26-29.
- Khedr AE, Yaseen N. “Predicting stock market behavior using data mining technique and news sentiment analysis”. International Journal of Intelligent Systems and Applications, 9(7), 2017; 22-30.
- Martinez-Martin N, Insel TR, Dagum P, Greely HT, Cho MK, “Data mining for health: staking out the ethical territory of digital phenotyping”. NPJ digital medicine, 2018; 1(1), 1-5.
- Bustince H, Herrera F, Montero J. Fuzzy Sets and Their Extensions: Representation, Aggregation and Models. 1th ed. Springer-Verlag Berlin Heidelberg, 2007.
- Alsaidi, S. A., Sadeq, A. T., & Abdullah, H. S., English poems categorization using text mining and rough set theory. Bulletin of Electrical Engineering and Informatics, 2020, 9(4), 1701-1710.
- Doğan UK, Arslantekin S. “Elektronik Belge Yönetimi, Dijital Arşivleme Sistemleri ve Büyük Veri”. Bilgi Sistemleri Ve Bilişim Yönetimi: Beklentiler Ve Yeni Yaklaşımlar, 2017; 65-80.
- Monino JL, Sedkaoui S. Big Data, Open Data and Data Development. 3nd ed. London: ISTE Ltd., 2016.
- Liu C, Wang W, Zhang Y, Dong Y, He F, Wu C. “Predicting the popularity of online news based on multivariate analysis”. IEEE International Conference on Computer and Information Technology (CIT), Helsinki, Finland, 21-23 Agust 2017.
- Esiyok C, Kille B, Jain BJ, Hopfgartner F, Albayrak S. “Users' reading habits in online news portals”. 5th Information Interaction in Context Symposium, New York, U.S.A., 26-29 August 2014.
- Sukiennik N, Hui P. “Inflo: News Categorization and Keyphrase Extraction for Implementation in an Aggregation System”. ArXiv, 2018; abs (1812.03781).
- Yüksel A, Tan G. “Metin Madenciliği Teknikleri ile Sosyal Ağlarda Bilgi Keşfi”. Mühendislik Bilimleri ve Tasarım Dergisi, 2018; 6, 324-33.
- Usmani, S., ve Shamsi, J. A., News Headlines Categorization Scheme for Unlabelled Data. In 2020 International Conference on Emerging Trends in Smart Technologies (ICETST), 1-6, IEEE, March 2020.
- Acı Çİ, ve Çırak A, “Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması”. International Journal of InformaticsTechnologies, 2019; 12(3).
- Dai Z, Taneja H, Huang R. “Fine-grained structure-based news genre categorization”. 2018 Events and Stories in the News Workshop, New Mexico, U.S.A, 20-21 August 2018.
- Qiu X, Gong J, Huang X. “Overview of the NLPCC 2017 shared task: Chinese news headline categorization”. National CCF Conference on Natural Language Processing and Chinese Computing, Dalian, China, 8-12 November 2017.
- Başkaya F, Aydin İ. “Haber metinlerinin farklı metin madenciliği yöntemleriyle sınıflandırılması”, International Artificial Intelligence and Data Processing Symposium (IDAP), 1-5, September 2017.
- Toraman C, Can F, Koçberber S. “Developing a text categorization template for Turkish news portals”. International Symposium on Innovations in Intelligent Systems and Applications, 379-383, June 2011.
- Krishnalal G, Rengarajan SB, Srinivasagan KG. “A new text mining approach based on HMM-SVM for web news classification”. International Journal of Computer Applications, 2010; 1(19), 98-104.
- Lin KHY, Yang C, Chen HH. “What emotions do news articles trigger in their readers?”, 30th annual international ACM SIGIR conference on Research and development in information retrieval, Amsterdam, Holland 23-27 July 2007.
- Kazawa H, Izumitani T, Taira H, Maeda E. “Maximal margin labeling for multi-topic text categorization”. Advances in neural information processing systems, 2005; 649-656.
- Jo TC. “Text categorization with the concept of fuzzy set of informative keywords”. 1999 IEEE International Fuzzy Systems. Conference Proceedings, 99CH36315(2), 609-614, 22-25 August 1999.
- https://websiteyonetimi.ahievran.edu.tr/_Dosyalar/Genel/HaberMetinleri.rar, E.T.:09.10.2020
- https://weka.sourceforge.io/doc.dev/weka/classifiers/bayes/NaiveBayesMultinomialText.html, E.T.:09.10.2020
- https://weka.sourceforge.io/doc.dev/weka/classifiers/trees/RandomForest.html, E.T.:09.10.2020
- Arpacı, S. A., ve Kalıpsız, O. (2018). Yazılım Hata Sınıflandırmasında Farklı Naive Bayes Tekniklerin Kıyaslanması. Niğde Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi, 7(1), 1-13.
- Aydoğan, E. (2008), Veri Madenciliğinde Sınıflandırma Problemleri İçin Evrimsel Algoritma Tabanlı Yeni Bir Yaklasım: Rough-Mep Algoritması. Doktora tezi, Gazi Üniversitesi, Ankara.
- Skurichina, M. ve Duin, R. P. W. (2002). Bagging, boosting and the random subspace method for linear classifiers. Pattern Analysis and Applications, 5(2), 121–135. https://doi.org/10.1007/s100.440.200011
- Korkem, E., (2013), Mikroarray Gen Ekspresyon Veri Setlerinde Random Forest ve Naıve Bayes Sınıflama Yöntemleri Yaklaşımı. Yüksek Lisans tezi, Hacettepe Üniversitesi, Ankara.
- Korkem, E., (2013), Mikroarray Gen Ekspresyon Veri Setlerinde Random Forest ve Naıve Bayes Sınıflama Yöntemleri Yaklaşımı. Yüksek Lisans tezi, Hacettepe Üniversitesi, Ankara.
- Zec, S., Soriani, N., Comoretto, R., & Baldi, I., Suppl-1, M5: high agreement and high prevalence: the paradox of Cohen’s Kappa. The open nursing journal, 2017, 11/211.