Evaluation of the Factors Affecting Performance on the Data Set - Classification Relationship
Yıl 2020,
Cilt: 32 Sayı: 2, 531 - 540, 24.09.2020
Abdullah Alan
,
Murat Karabatak
Kaynakça
- [1] Gürsakal N. Makine Öğrenmesi ve Derin Öğrenme. Bursa, 2017.
- [2] Göbekçin T. (Ed.) Master algoritma. İstanbul, 2017.
- [3] https://open.nasa.gov/blog/datanaut-fall-2017-class-announcement/ (Erişim Tarihi: 21.01.2020)
- [4] https://www.theguardian.com/media-network/2015/mar/05/digital-oligarchy-algorithms-personal-data (Erişim Tarihi: 1.01.2020)
- [5] Aydın F. Kalp ritim bozukluğu olan hastaların tedavi süreçlerini desteklemek amaçlı makine öğrenmesine dayalı bir sistemin geliştirilmesi, Yüksek Lisans Tezi, Trakya Üniversitesi, Fen Bilimleri Üniversitesi, Edirne, 2011.
- [6] Hacıefendioğlu Ş. Makine öğrenmesi yöntemleri ile glokom hastalığının teşhisi, Yüksek Lisans Tezi, Selçuk Üniversitesi, Fen Bilimleri Enstitüsü, Konya, 2012.
- [7] Kartal E. Sınıflandırmaya dayalı makine öğrenmesi teknikleri ve kardiyolojik risk değerlendirmesine ilişkin bir uygulama, Doktora Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2015.
- [8] Şeker M. İyi–kötü kokular ile ilişkili EMOTIV-EPOC tabanlı EEG kayıtlarının makine öğrenmesi yöntemleri ile sınıflandırılması, Yüksek Lisans Tezi, Dicle Üniversitesi, Fen Bilimleri Enstitüsü, Diyarbakır, 2017.
- [9] Turgut S. Makine öğrenmesi yöntemleri kullanarak kanser teşhisi, Yüksek Lisans Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2017.
- [10] Pekel E. Farklı makine öğrenmesi algoritmalarının karşılaştırılması, Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Fen Bilimleri Enstitüsü, Samsun, 2018.
- [11] https://kaggle.com (Erişim Tarihi: 05.05.2020)
- [12] Johnson JM, Khoshgoftaar TM. Survey on deep learning with class imbalance. Journal of Big Data 2019; 6(1): 27.
- [13] Fawcett T. An introduction to ROC analysis, Pattern recognition letter 2006; 27 (8): 861–874.
- [14] Ayık YZ, Özdemir A, Yavuz U. Lise türü ve lise mezuniyet başarısının, kazanılan fakülte ile ilişkisinin veri madenciliği tekniği ile analizi. Atatürk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi 2007; 10(2): 441-454.
- [15] Bozkır AS, Sezer E, Gök B. Öğrenci seçme sınavında (öss) öğrenci başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti. 5. Uluslararası İleri Teknolojiler Sempozyumu, 2009, 13-15 Mayıs, Karabük, s:1-7.
- [16] Albayrak AS, Koltan Yılmaz Ş. Veri madenciliği: Karar ağacı algoritmaları ve İMKB verileri üzerine bir uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 2009; 14(1): 31-52.
- [17] Breiman L. Random forests,machine learning, 2001 Kluwer Academic Publishers 2001; 45(1): 5-32.
- [18] Archer KJ. Emprical characterization of random forest variable ımportance measure. Computational Statistics & Data Analysis 2008; 52(4): 2249-2260.
- [19] http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm (Erişim Tariihi: 24 Nisan 2019)
- [20] Balaban ME, Kartal E. Veri madenciliği ve makine öğrenmesi temel algoritmalar ve R dili ile uygulamaları. İstanbul, 2015.
- [21] Boser B, Guyon I, Vapnik V. A training algorithm for optimal margin classifiers. Proceedings of the fifth annual workshop on Computational learning theory: Pittsburgh, Pennsylvania, USA 1992; 144–152.
- [22] Melgani F, Bruzzone L. Classification of hyperspectral remote sensing ımages with support vector machines. IEEE Transactıons on Geoscıence and Remote Sensıng 2004; 42(8): 1778-1790.
- [23] Kégl B. Introduction to AdaBoost, 2009; 11-14.
- [24] Friedman J. Greedy function approximation: a gradient boosting machine. Annals of Statistics 2001; 29(5): 1189-1232.
- [25] Özdemir ME, Yıldırım E, Yıldırım S. Classification of emotional valence dimension using artificial neural networks. In Signal Processing and Communications Applications Conference (SIU) 2015; 23: 2549-2552.
- [26] Han J, Kamber M, Pei J. Data mining: Concepts and techniques. Morgan Kaufmann Publishers 2012.
- [27] Japkowicz N. Performance evaluation for learning algorithms, Cambridge University Press, Cambridge 2011.
- [28] Akosa J. Predictive accuracy: a misleading performance measure for highly imbalanced data. In Proceedings of the SAS Global Forum 2017; 12.
- [29] Kılıç S. Klinik karar vermede ROC analizi. Journal of Mood Disorders 2013; 3 (3): 135-40.
Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi
Yıl 2020,
Cilt: 32 Sayı: 2, 531 - 540, 24.09.2020
Abdullah Alan
,
Murat Karabatak
Öz
Veri madenciliği yöntemlerinden biri olan sınıflandırma, en çok kullanılan veri madenciliği yöntemidir. Bir veri veya veri grubunun mevcut sınıflardan hangisine ait olduğunun belirlenmesi olarak tanımlanmaktadır. Sınıflandırma çalışmalarında en önemli kriter yüksek başarımlı bir sınıflandırıcı model oluşturabilmektir. Ancak başarımı etkileyen birçok neden bulunmaktadır. Kullanılan test yöntemlerinin yanı sıra veri setine ait özellikler de başarımı etkileyen unsurlardan biridir. Bu makalede, hem test tekniklerinin hem de veri setinin özelliklerinin başarıma etkisi detaylı olarak incelenmektedir. Bu amaçla, literatürde yaygın olarak kullanılan 32 farklı veri seti kullanılarak deneyler gerçekleştirilmiştir. Ayrıca çalışmada 9 farklı sınıflandırma algoritması da kullanılarak bu algoritmaların veri setleri üzerindeki başarımları da kıyaslanmıştır. Elde edilen sonuçlar, algoritmaların etkinliğinin yanı sıra test yöntemlerinin başarıma etkilerini de ortaya çıkarmıştır. Veri setine ait parametrelerin sınıflandırma başarımına etkileri makalede detaylı olarak ortaya konulmuştur.
Kaynakça
- [1] Gürsakal N. Makine Öğrenmesi ve Derin Öğrenme. Bursa, 2017.
- [2] Göbekçin T. (Ed.) Master algoritma. İstanbul, 2017.
- [3] https://open.nasa.gov/blog/datanaut-fall-2017-class-announcement/ (Erişim Tarihi: 21.01.2020)
- [4] https://www.theguardian.com/media-network/2015/mar/05/digital-oligarchy-algorithms-personal-data (Erişim Tarihi: 1.01.2020)
- [5] Aydın F. Kalp ritim bozukluğu olan hastaların tedavi süreçlerini desteklemek amaçlı makine öğrenmesine dayalı bir sistemin geliştirilmesi, Yüksek Lisans Tezi, Trakya Üniversitesi, Fen Bilimleri Üniversitesi, Edirne, 2011.
- [6] Hacıefendioğlu Ş. Makine öğrenmesi yöntemleri ile glokom hastalığının teşhisi, Yüksek Lisans Tezi, Selçuk Üniversitesi, Fen Bilimleri Enstitüsü, Konya, 2012.
- [7] Kartal E. Sınıflandırmaya dayalı makine öğrenmesi teknikleri ve kardiyolojik risk değerlendirmesine ilişkin bir uygulama, Doktora Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2015.
- [8] Şeker M. İyi–kötü kokular ile ilişkili EMOTIV-EPOC tabanlı EEG kayıtlarının makine öğrenmesi yöntemleri ile sınıflandırılması, Yüksek Lisans Tezi, Dicle Üniversitesi, Fen Bilimleri Enstitüsü, Diyarbakır, 2017.
- [9] Turgut S. Makine öğrenmesi yöntemleri kullanarak kanser teşhisi, Yüksek Lisans Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2017.
- [10] Pekel E. Farklı makine öğrenmesi algoritmalarının karşılaştırılması, Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Fen Bilimleri Enstitüsü, Samsun, 2018.
- [11] https://kaggle.com (Erişim Tarihi: 05.05.2020)
- [12] Johnson JM, Khoshgoftaar TM. Survey on deep learning with class imbalance. Journal of Big Data 2019; 6(1): 27.
- [13] Fawcett T. An introduction to ROC analysis, Pattern recognition letter 2006; 27 (8): 861–874.
- [14] Ayık YZ, Özdemir A, Yavuz U. Lise türü ve lise mezuniyet başarısının, kazanılan fakülte ile ilişkisinin veri madenciliği tekniği ile analizi. Atatürk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi 2007; 10(2): 441-454.
- [15] Bozkır AS, Sezer E, Gök B. Öğrenci seçme sınavında (öss) öğrenci başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti. 5. Uluslararası İleri Teknolojiler Sempozyumu, 2009, 13-15 Mayıs, Karabük, s:1-7.
- [16] Albayrak AS, Koltan Yılmaz Ş. Veri madenciliği: Karar ağacı algoritmaları ve İMKB verileri üzerine bir uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 2009; 14(1): 31-52.
- [17] Breiman L. Random forests,machine learning, 2001 Kluwer Academic Publishers 2001; 45(1): 5-32.
- [18] Archer KJ. Emprical characterization of random forest variable ımportance measure. Computational Statistics & Data Analysis 2008; 52(4): 2249-2260.
- [19] http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm (Erişim Tariihi: 24 Nisan 2019)
- [20] Balaban ME, Kartal E. Veri madenciliği ve makine öğrenmesi temel algoritmalar ve R dili ile uygulamaları. İstanbul, 2015.
- [21] Boser B, Guyon I, Vapnik V. A training algorithm for optimal margin classifiers. Proceedings of the fifth annual workshop on Computational learning theory: Pittsburgh, Pennsylvania, USA 1992; 144–152.
- [22] Melgani F, Bruzzone L. Classification of hyperspectral remote sensing ımages with support vector machines. IEEE Transactıons on Geoscıence and Remote Sensıng 2004; 42(8): 1778-1790.
- [23] Kégl B. Introduction to AdaBoost, 2009; 11-14.
- [24] Friedman J. Greedy function approximation: a gradient boosting machine. Annals of Statistics 2001; 29(5): 1189-1232.
- [25] Özdemir ME, Yıldırım E, Yıldırım S. Classification of emotional valence dimension using artificial neural networks. In Signal Processing and Communications Applications Conference (SIU) 2015; 23: 2549-2552.
- [26] Han J, Kamber M, Pei J. Data mining: Concepts and techniques. Morgan Kaufmann Publishers 2012.
- [27] Japkowicz N. Performance evaluation for learning algorithms, Cambridge University Press, Cambridge 2011.
- [28] Akosa J. Predictive accuracy: a misleading performance measure for highly imbalanced data. In Proceedings of the SAS Global Forum 2017; 12.
- [29] Kılıç S. Klinik karar vermede ROC analizi. Journal of Mood Disorders 2013; 3 (3): 135-40.