Veri madenciliği yöntemleri ile bir melez sınıflandırma yaklaşımı ve uygulaması
Yıl 2023,
Cilt: 16 Sayı: 2, 100 - 115, 31.12.2023
Gözde Ulu Metin
,
Özlem Türkşen
Öz
Son yıllarda hızla artan büyüklükteki veri setlerinden bilgi keşfetmek oldukça değerlidir. Veri madenciliği yöntemleri, sınıflandırma problemlerinde, büyük ve karmaşık veri setlerindeki gizli örüntünün ortaya çıkarılarak verilerin belli bir sınıfa atanması amacıyla kullanılır. Bu çalışmada, kurumların başarım değerlendirilmesi sürecine istatistiksel bakış açısı kazandırmak amacıyla veri madenciliği yöntemleri ile Analitik Hiyerarşi Süreci (AHP) ve CODAS yöntemleri kullanılarak bir melez sınıflandırma yaklaşımı önerilmiştir. Uygulama amacıyla bir kurum verisi ele alınmıştır. Veri seti ön işleme aşamasından geçirilerek, veri setindeki değişkenler, uzman bilgisi dikkate alınarak AHP yöntemi ile ağırlıklandırılmıştır. Ağırlıklandırılmış gerçek veri setine, veri madenciliği sınıflandırma yöntemlerinden Lojistik Regresyon (LR), K-En Yakın Komşu (KNN) algoritması, Destek Vektör Makineleri (SVM) ve Rastgele Orman (RF) algoritması uygulanmıştır. Sınıflandırma yöntemleri, 5-kat çapraz doğrulama sonucu elde edilen doğruluk, kesinlik, duyarlılık ve F1-skor performans ölçütlerine göre hesaplanmıştır. Elde edilen performans ölçütleri, çok ölçütlü karar verme yöntemi olan CODAS’a göre değerlendirilmiştir. Yapılan melez sınıflandırma yaklaşımına göre, Ar-Ge ve Tasarım merkezlerinin faaliyetlerinin değerlendirilmesi konusunda RF yönteminin daha iyi sınıflandırma performansına sahip olduğu görülmüştür.
Etik Beyan
Bu çalışma, birinci yazarın, ikinci yazarın danışmanlığında hazırladığı doktora tezinden üretilmiştir.
Kaynakça
- [1] V. Çetin ve O. A. Yıldız, 2022, A Comprehensive review on data preprocessing techniques in data analysis, Pamukkale University Journal of Engineering Sciences, 28(2), 299-312.
- [2] M. Emeç ve M. H. Özcanhan, 2023, Veri Ön İşleme ve Öznitelik Mühendisliğinin Yapay Zekâ Yöntemlerine Uygulanması, Mühendislikte Öncü ve Çağdaş Çalışmalar, 33-54.
- [3] A. Burkov, “The Hundred-Page Machine Learning Book” kitabından çeviri, Çeviren: A. Okatan, T. Karatekin ve K. Okatan, 2021 ,100 Sayfada Makine Öğrenmesi Kitabı, (1), Papatya Yayıncılık Eğitim, İstanbul.
- [4] J. Han, M. Kamber and J. Pei, 2012, Data mining concepts and techniques, University of Illinois at Urbana-Champaign Micheline Kamber Jian Pei Simon Fraser University.
- [5] A. Çınar ve G. Silahtaroğlu, 2012, Veri madenciliği teknikleri ile müşteri memnuniyetine etki eden gizli nedenlerin keşfi, Marmara Üniversitesi İktisadi ve İdari Bilimler Dergisi, 33(2), 309-330.
- [6] Y. Nieto, V. Gacía-Díaz, C. Montenegro, C. C. González and R. G. Crespo, 2019, Usage of machine learning for strategic decision making at higher educational institutions, IEEE Access, 7, 75007-75017.
- [7] Ç. Öztürk Zan, 2021, Prediction of Soil Radon Gas Using Meteorological Parameters with Machine Learning Algorithms, M.Sc Thesis, Dokuz Eylül University Graduate School of Natural and Applied Sciences.
- [8] Ö. Ç. Yavuz, E. Karaman ve C. Yeşilyaprak, 2022, Makine öğrenmesi algoritmalarıyla astronomik gözlem kalitesi tahminine yönelik karar destek sistemi geliştirilmesi ve uygulanması, Trends in Business and Economics, 36 (3), 289-303.
- [9] A. Ulutaş, 2019, Third-Party Logistics Provider Selection By Using AHP and CODAS Methods, SETSCI Conference Proceedings, 4 (8), 36-38.
- [10] G. F. Can, P. Toktaş ve F. Pakdil, 2021, Six Sigma Project Prioritization and Selection Using AHP–CODAS Integration: A Case Study in Healthcare Industry, IEEE Transactions on Engineering Management, 70 (10), 3587-3600.
- [11] U. Fayyad, 1997, Knowledge discovery in databases: An overview, In International Conference on Inductive Logic Programming, 1-16, Berlin, Heidelberg: Springer Berlin Heidelberg.
- [12] Ş. Kavurkacı, Z. K. Aydın ve R. Şamlı, 2011, Büyük ölçekli veri tabanlarında bilgi keşfi, Akademik Bilişim Konferansları, 2-4.
- [13] U. Fayyad, G. Piatetsky-Shapiro and P. Smyth, 1996, From data mining to knowledge discovery in databases, AI magazine, 17(3), 37-37.
- [14] K. Keleş ve P. Z. Tunca, 2015, Hiyerarşik Electre Yönteminin Teknokent Seçiminde Kullanımı Üzerine Bir Çalışma, Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 20 (1), 199-223.
- [15] S. Arslan ve Ö. Belgin, 2020, Yüksek ve Orta-Yüksek Teknoloji Alanındaki Sektörlerin Çok Kriterli Karar Verme Teknikleri ile Önceliklendirilmesi, Verimlilik Dergisi, (4), 7-23. DOI: 10.51551/verimlilik.556526.
- [16] M. Güryeli, 2016, Ar-Ge Projeleri Seçim Probleminin AHP Yöntemi ile İncelenmesi: Kamu Destekli Teknolojik Ürün Yatırım Destek Programı Üzerine Bir Uygulama”, Yüksek Lisans Tezi, Adnan Menderes Üniversitesi, Sosyal Bilimler Enstitüsü.
- [17] T. L. Saaty, 2008, Decision making with The Analytic Hierarchy Process, International Journal Services Sciences, 1(1), 83-98.
- [18] T. L. Saaty, 1990, The Analytıc Hıerarchy Process In Conflıct Management, International Journal of Conflict Management, 1(1), 47-68. https://doi.org/10.1108/eb022672
- [19] M. Ö. Dolgun, T. G. Özdemir ve D. Oğuz, 2009, Veri madenciliğinde yapısal olmayan verinin analizi: Metin ve web madenciliği. İstatistikçiler Dergisi: İstatistik ve Aktüerya, 2(2), 48-58.
- [20] C. Cortes and V. Vapnik, 1995, Support-vector networks, Machine learning, 20, 273–297. https://doi.org/10.1007/BF00994018
- [21] N. Bayram Arlı, M. Engin ve S. Gürsakal, 2022, Random Forest. Supervised Machine Learning Algorithms R and Python Applications, Nobel Yayınevi, Ankara.
- [22] A. Géron, 2019, Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow, O'Reilly Media, Sebastopol, CA.
- [23] L. Breiman, 2001, Random Forest, Machine learning, 45, 5-32.https://doi.org/10.1023/A:1010933404324
- [24] M. Öztürk, Python ile Sınıflandırma Analizleri – Rastgele Orman (Random Forest) Algoritması- Miraç ÖZTÜRK (miracozturk.com), Erişim tarihi:04.10.2023.
- [25] M. K. Ghorabaee, E. K. Zavadskas, Z. Turskis and J. Antucheviciene, 2016, A new combinative distance-based assessment (CODAS) method for multi-criteria decision-making. Economic Computation and Economic Cybernetics Studies and Research, 50, 25–44.
A hybrid classification approach with data mining methods and an application
Yıl 2023,
Cilt: 16 Sayı: 2, 100 - 115, 31.12.2023
Gözde Ulu Metin
,
Özlem Türkşen
Öz
In recent years, it is very valuable to discover information from data sets of rapidly increasing size. Data mining methods are used in classification problems to assign data to a certain class by revealing the hidden pattern in large and complex data sets. In this study, a hybrid classification approach is proposed by using data mining methods with Analytic Hierarchy Process (AHP) and CODAS methods in order to gain a statistical perspective on the performance evaluation process of the instutitions. An instutition data is taken as a basis for the application. The data set is preprocessed and the variables in the data set are weighted by AHP method by taking into account expert knowledge. Logistic Regression (LR), K-Nearest Neighbour (KNN) algorithm, Support Vector Machines (SVM) and Random Forest (RF) algorithm, data mining classification methods, were applied to the weighted real data set. The classification methods were calculated according to the accuracy, precision, sensitivity and F1-score performance measures obtained from 5-fold cross-validation. The obtained performance criteria were evaluated according to the CODAS, a multi-criteria decision making method. As a result of the hybrid classification approach, it was seen that the RF method has better classification performance about the evaluation of the activities of R&D and Design centers.
Kaynakça
- [1] V. Çetin ve O. A. Yıldız, 2022, A Comprehensive review on data preprocessing techniques in data analysis, Pamukkale University Journal of Engineering Sciences, 28(2), 299-312.
- [2] M. Emeç ve M. H. Özcanhan, 2023, Veri Ön İşleme ve Öznitelik Mühendisliğinin Yapay Zekâ Yöntemlerine Uygulanması, Mühendislikte Öncü ve Çağdaş Çalışmalar, 33-54.
- [3] A. Burkov, “The Hundred-Page Machine Learning Book” kitabından çeviri, Çeviren: A. Okatan, T. Karatekin ve K. Okatan, 2021 ,100 Sayfada Makine Öğrenmesi Kitabı, (1), Papatya Yayıncılık Eğitim, İstanbul.
- [4] J. Han, M. Kamber and J. Pei, 2012, Data mining concepts and techniques, University of Illinois at Urbana-Champaign Micheline Kamber Jian Pei Simon Fraser University.
- [5] A. Çınar ve G. Silahtaroğlu, 2012, Veri madenciliği teknikleri ile müşteri memnuniyetine etki eden gizli nedenlerin keşfi, Marmara Üniversitesi İktisadi ve İdari Bilimler Dergisi, 33(2), 309-330.
- [6] Y. Nieto, V. Gacía-Díaz, C. Montenegro, C. C. González and R. G. Crespo, 2019, Usage of machine learning for strategic decision making at higher educational institutions, IEEE Access, 7, 75007-75017.
- [7] Ç. Öztürk Zan, 2021, Prediction of Soil Radon Gas Using Meteorological Parameters with Machine Learning Algorithms, M.Sc Thesis, Dokuz Eylül University Graduate School of Natural and Applied Sciences.
- [8] Ö. Ç. Yavuz, E. Karaman ve C. Yeşilyaprak, 2022, Makine öğrenmesi algoritmalarıyla astronomik gözlem kalitesi tahminine yönelik karar destek sistemi geliştirilmesi ve uygulanması, Trends in Business and Economics, 36 (3), 289-303.
- [9] A. Ulutaş, 2019, Third-Party Logistics Provider Selection By Using AHP and CODAS Methods, SETSCI Conference Proceedings, 4 (8), 36-38.
- [10] G. F. Can, P. Toktaş ve F. Pakdil, 2021, Six Sigma Project Prioritization and Selection Using AHP–CODAS Integration: A Case Study in Healthcare Industry, IEEE Transactions on Engineering Management, 70 (10), 3587-3600.
- [11] U. Fayyad, 1997, Knowledge discovery in databases: An overview, In International Conference on Inductive Logic Programming, 1-16, Berlin, Heidelberg: Springer Berlin Heidelberg.
- [12] Ş. Kavurkacı, Z. K. Aydın ve R. Şamlı, 2011, Büyük ölçekli veri tabanlarında bilgi keşfi, Akademik Bilişim Konferansları, 2-4.
- [13] U. Fayyad, G. Piatetsky-Shapiro and P. Smyth, 1996, From data mining to knowledge discovery in databases, AI magazine, 17(3), 37-37.
- [14] K. Keleş ve P. Z. Tunca, 2015, Hiyerarşik Electre Yönteminin Teknokent Seçiminde Kullanımı Üzerine Bir Çalışma, Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 20 (1), 199-223.
- [15] S. Arslan ve Ö. Belgin, 2020, Yüksek ve Orta-Yüksek Teknoloji Alanındaki Sektörlerin Çok Kriterli Karar Verme Teknikleri ile Önceliklendirilmesi, Verimlilik Dergisi, (4), 7-23. DOI: 10.51551/verimlilik.556526.
- [16] M. Güryeli, 2016, Ar-Ge Projeleri Seçim Probleminin AHP Yöntemi ile İncelenmesi: Kamu Destekli Teknolojik Ürün Yatırım Destek Programı Üzerine Bir Uygulama”, Yüksek Lisans Tezi, Adnan Menderes Üniversitesi, Sosyal Bilimler Enstitüsü.
- [17] T. L. Saaty, 2008, Decision making with The Analytic Hierarchy Process, International Journal Services Sciences, 1(1), 83-98.
- [18] T. L. Saaty, 1990, The Analytıc Hıerarchy Process In Conflıct Management, International Journal of Conflict Management, 1(1), 47-68. https://doi.org/10.1108/eb022672
- [19] M. Ö. Dolgun, T. G. Özdemir ve D. Oğuz, 2009, Veri madenciliğinde yapısal olmayan verinin analizi: Metin ve web madenciliği. İstatistikçiler Dergisi: İstatistik ve Aktüerya, 2(2), 48-58.
- [20] C. Cortes and V. Vapnik, 1995, Support-vector networks, Machine learning, 20, 273–297. https://doi.org/10.1007/BF00994018
- [21] N. Bayram Arlı, M. Engin ve S. Gürsakal, 2022, Random Forest. Supervised Machine Learning Algorithms R and Python Applications, Nobel Yayınevi, Ankara.
- [22] A. Géron, 2019, Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow, O'Reilly Media, Sebastopol, CA.
- [23] L. Breiman, 2001, Random Forest, Machine learning, 45, 5-32.https://doi.org/10.1023/A:1010933404324
- [24] M. Öztürk, Python ile Sınıflandırma Analizleri – Rastgele Orman (Random Forest) Algoritması- Miraç ÖZTÜRK (miracozturk.com), Erişim tarihi:04.10.2023.
- [25] M. K. Ghorabaee, E. K. Zavadskas, Z. Turskis and J. Antucheviciene, 2016, A new combinative distance-based assessment (CODAS) method for multi-criteria decision-making. Economic Computation and Economic Cybernetics Studies and Research, 50, 25–44.