Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi

Abdullah Alan; Murat Karabatak

doi:10.35234/fumbd.738007

Araştırma Makalesi

Evaluation of the Factors Affecting Performance on the Data Set - Classification Relationship

Yıl 2020, Cilt: 32 Sayı: 2, 531 - 540, 24.09.2020

Abdullah Alan , Murat Karabatak

https://doi.org/10.35234/fumbd.738007

Cited By: 10

Öz

Kaynakça

[1] Gürsakal N. Makine Öğrenmesi ve Derin Öğrenme. Bursa, 2017.
[2] Göbekçin T. (Ed.) Master algoritma. İstanbul, 2017.
[3] https://open.nasa.gov/blog/datanaut-fall-2017-class-announcement/ (Erişim Tarihi: 21.01.2020)
[4] https://www.theguardian.com/media-network/2015/mar/05/digital-oligarchy-algorithms-personal-data (Erişim Tarihi: 1.01.2020)
[5] Aydın F. Kalp ritim bozukluğu olan hastaların tedavi süreçlerini desteklemek amaçlı makine öğrenmesine dayalı bir sistemin geliştirilmesi, Yüksek Lisans Tezi, Trakya Üniversitesi, Fen Bilimleri Üniversitesi, Edirne, 2011.
[6] Hacıefendioğlu Ş. Makine öğrenmesi yöntemleri ile glokom hastalığının teşhisi, Yüksek Lisans Tezi, Selçuk Üniversitesi, Fen Bilimleri Enstitüsü, Konya, 2012.
[7] Kartal E. Sınıflandırmaya dayalı makine öğrenmesi teknikleri ve kardiyolojik risk değerlendirmesine ilişkin bir uygulama, Doktora Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2015.
[8] Şeker M. İyi–kötü kokular ile ilişkili EMOTIV-EPOC tabanlı EEG kayıtlarının makine öğrenmesi yöntemleri ile sınıflandırılması, Yüksek Lisans Tezi, Dicle Üniversitesi, Fen Bilimleri Enstitüsü, Diyarbakır, 2017.
[9] Turgut S. Makine öğrenmesi yöntemleri kullanarak kanser teşhisi, Yüksek Lisans Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2017.
[10] Pekel E. Farklı makine öğrenmesi algoritmalarının karşılaştırılması, Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Fen Bilimleri Enstitüsü, Samsun, 2018.
[11] https://kaggle.com (Erişim Tarihi: 05.05.2020)
[12] Johnson JM, Khoshgoftaar TM. Survey on deep learning with class imbalance. Journal of Big Data 2019; 6(1): 27.
[13] Fawcett T. An introduction to ROC analysis, Pattern recognition letter 2006; 27 (8): 861–874.
[14] Ayık YZ, Özdemir A, Yavuz U. Lise türü ve lise mezuniyet başarısının, kazanılan fakülte ile ilişkisinin veri madenciliği tekniği ile analizi. Atatürk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi 2007; 10(2): 441-454.
[15] Bozkır AS, Sezer E, Gök B. Öğrenci seçme sınavında (öss) öğrenci başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti. 5. Uluslararası İleri Teknolojiler Sempozyumu, 2009, 13-15 Mayıs, Karabük, s:1-7.
[16] Albayrak AS, Koltan Yılmaz Ş. Veri madenciliği: Karar ağacı algoritmaları ve İMKB verileri üzerine bir uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 2009; 14(1): 31-52.
[17] Breiman L. Random forests,machine learning, 2001 Kluwer Academic Publishers 2001; 45(1): 5-32.
[18] Archer KJ. Emprical characterization of random forest variable ımportance measure. Computational Statistics & Data Analysis 2008; 52(4): 2249-2260.
[19] http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm (Erişim Tariihi: 24 Nisan 2019)
[20] Balaban ME, Kartal E. Veri madenciliği ve makine öğrenmesi temel algoritmalar ve R dili ile uygulamaları. İstanbul, 2015.
[21] Boser B, Guyon I, Vapnik V. A training algorithm for optimal margin classifiers. Proceedings of the fifth annual workshop on Computational learning theory: Pittsburgh, Pennsylvania, USA 1992; 144–152.
[22] Melgani F, Bruzzone L. Classification of hyperspectral remote sensing ımages with support vector machines. IEEE Transactıons on Geoscıence and Remote Sensıng 2004; 42(8): 1778-1790.
[23] Kégl B. Introduction to AdaBoost, 2009; 11-14.
[24] Friedman J. Greedy function approximation: a gradient boosting machine. Annals of Statistics 2001; 29(5): 1189-1232.
[25] Özdemir ME, Yıldırım E, Yıldırım S. Classification of emotional valence dimension using artificial neural networks. In Signal Processing and Communications Applications Conference (SIU) 2015; 23: 2549-2552.
[26] Han J, Kamber M, Pei J. Data mining: Concepts and techniques. Morgan Kaufmann Publishers 2012.
[27] Japkowicz N. Performance evaluation for learning algorithms, Cambridge University Press, Cambridge 2011.
[28] Akosa J. Predictive accuracy: a misleading performance measure for highly imbalanced data. In Proceedings of the SAS Global Forum 2017; 12.
[29] Kılıç S. Klinik karar vermede ROC analizi. Journal of Mood Disorders 2013; 3 (3): 135-40.

Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi

Yıl 2020, Cilt: 32 Sayı: 2, 531 - 540, 24.09.2020

Abdullah Alan , Murat Karabatak

https://doi.org/10.35234/fumbd.738007

Cited By: 10

Öz

Veri madenciliği yöntemlerinden biri olan sınıflandırma, en çok kullanılan veri madenciliği yöntemidir. Bir veri veya veri grubunun mevcut sınıflardan hangisine ait olduğunun belirlenmesi olarak tanımlanmaktadır. Sınıflandırma çalışmalarında en önemli kriter yüksek başarımlı bir sınıflandırıcı model oluşturabilmektir. Ancak başarımı etkileyen birçok neden bulunmaktadır. Kullanılan test yöntemlerinin yanı sıra veri setine ait özellikler de başarımı etkileyen unsurlardan biridir. Bu makalede, hem test tekniklerinin hem de veri setinin özelliklerinin başarıma etkisi detaylı olarak incelenmektedir. Bu amaçla, literatürde yaygın olarak kullanılan 32 farklı veri seti kullanılarak deneyler gerçekleştirilmiştir. Ayrıca çalışmada 9 farklı sınıflandırma algoritması da kullanılarak bu algoritmaların veri setleri üzerindeki başarımları da kıyaslanmıştır. Elde edilen sonuçlar, algoritmaların etkinliğinin yanı sıra test yöntemlerinin başarıma etkilerini de ortaya çıkarmıştır. Veri setine ait parametrelerin sınıflandırma başarımına etkileri makalede detaylı olarak ortaya konulmuştur.

Anahtar Kelimeler

sınıflandırma, veri seti, başarım, test teknikleri

Kaynakça

[1] Gürsakal N. Makine Öğrenmesi ve Derin Öğrenme. Bursa, 2017.
[2] Göbekçin T. (Ed.) Master algoritma. İstanbul, 2017.
[3] https://open.nasa.gov/blog/datanaut-fall-2017-class-announcement/ (Erişim Tarihi: 21.01.2020)
[4] https://www.theguardian.com/media-network/2015/mar/05/digital-oligarchy-algorithms-personal-data (Erişim Tarihi: 1.01.2020)
[5] Aydın F. Kalp ritim bozukluğu olan hastaların tedavi süreçlerini desteklemek amaçlı makine öğrenmesine dayalı bir sistemin geliştirilmesi, Yüksek Lisans Tezi, Trakya Üniversitesi, Fen Bilimleri Üniversitesi, Edirne, 2011.
[6] Hacıefendioğlu Ş. Makine öğrenmesi yöntemleri ile glokom hastalığının teşhisi, Yüksek Lisans Tezi, Selçuk Üniversitesi, Fen Bilimleri Enstitüsü, Konya, 2012.
[7] Kartal E. Sınıflandırmaya dayalı makine öğrenmesi teknikleri ve kardiyolojik risk değerlendirmesine ilişkin bir uygulama, Doktora Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2015.
[8] Şeker M. İyi–kötü kokular ile ilişkili EMOTIV-EPOC tabanlı EEG kayıtlarının makine öğrenmesi yöntemleri ile sınıflandırılması, Yüksek Lisans Tezi, Dicle Üniversitesi, Fen Bilimleri Enstitüsü, Diyarbakır, 2017.
[9] Turgut S. Makine öğrenmesi yöntemleri kullanarak kanser teşhisi, Yüksek Lisans Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2017.
[10] Pekel E. Farklı makine öğrenmesi algoritmalarının karşılaştırılması, Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Fen Bilimleri Enstitüsü, Samsun, 2018.
[11] https://kaggle.com (Erişim Tarihi: 05.05.2020)
[12] Johnson JM, Khoshgoftaar TM. Survey on deep learning with class imbalance. Journal of Big Data 2019; 6(1): 27.
[13] Fawcett T. An introduction to ROC analysis, Pattern recognition letter 2006; 27 (8): 861–874.
[14] Ayık YZ, Özdemir A, Yavuz U. Lise türü ve lise mezuniyet başarısının, kazanılan fakülte ile ilişkisinin veri madenciliği tekniği ile analizi. Atatürk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi 2007; 10(2): 441-454.
[15] Bozkır AS, Sezer E, Gök B. Öğrenci seçme sınavında (öss) öğrenci başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti. 5. Uluslararası İleri Teknolojiler Sempozyumu, 2009, 13-15 Mayıs, Karabük, s:1-7.
[16] Albayrak AS, Koltan Yılmaz Ş. Veri madenciliği: Karar ağacı algoritmaları ve İMKB verileri üzerine bir uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 2009; 14(1): 31-52.
[17] Breiman L. Random forests,machine learning, 2001 Kluwer Academic Publishers 2001; 45(1): 5-32.
[18] Archer KJ. Emprical characterization of random forest variable ımportance measure. Computational Statistics & Data Analysis 2008; 52(4): 2249-2260.
[19] http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm (Erişim Tariihi: 24 Nisan 2019)
[20] Balaban ME, Kartal E. Veri madenciliği ve makine öğrenmesi temel algoritmalar ve R dili ile uygulamaları. İstanbul, 2015.
[21] Boser B, Guyon I, Vapnik V. A training algorithm for optimal margin classifiers. Proceedings of the fifth annual workshop on Computational learning theory: Pittsburgh, Pennsylvania, USA 1992; 144–152.
[22] Melgani F, Bruzzone L. Classification of hyperspectral remote sensing ımages with support vector machines. IEEE Transactıons on Geoscıence and Remote Sensıng 2004; 42(8): 1778-1790.
[23] Kégl B. Introduction to AdaBoost, 2009; 11-14.
[24] Friedman J. Greedy function approximation: a gradient boosting machine. Annals of Statistics 2001; 29(5): 1189-1232.
[25] Özdemir ME, Yıldırım E, Yıldırım S. Classification of emotional valence dimension using artificial neural networks. In Signal Processing and Communications Applications Conference (SIU) 2015; 23: 2549-2552.
[26] Han J, Kamber M, Pei J. Data mining: Concepts and techniques. Morgan Kaufmann Publishers 2012.
[27] Japkowicz N. Performance evaluation for learning algorithms, Cambridge University Press, Cambridge 2011.
[28] Akosa J. Predictive accuracy: a misleading performance measure for highly imbalanced data. In Proceedings of the SAS Global Forum 2017; 12.
[29] Kılıç S. Klinik karar vermede ROC analizi. Journal of Mood Disorders 2013; 3 (3): 135-40.

Toplam 29 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Konular	Mühendislik
Bölüm	MBD
Yazarlar	Abdullah Alan 0000-0002-1585-1698 Murat Karabatak 0000-0002-6719-7421
Yayımlanma Tarihi	24 Eylül 2020
Gönderilme Tarihi	15 Mayıs 2020
Yayımlandığı Sayı	Yıl 2020 Cilt: 32 Sayı: 2

Kaynak Göster

APA	Alan, A., & Karabatak, M. (2020). Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 32(2), 531-540. https://doi.org/10.35234/fumbd.738007
AMA	Alan A, Karabatak M. Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. Eylül 2020;32(2):531-540. doi:10.35234/fumbd.738007
Chicago	Alan, Abdullah, ve Murat Karabatak. “Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 32, sy. 2 (Eylül 2020): 531-40. https://doi.org/10.35234/fumbd.738007.
EndNote	Alan A, Karabatak M (01 Eylül 2020) Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 32 2 531–540.
IEEE	A. Alan ve M. Karabatak, “Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi”, Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 32, sy. 2, ss. 531–540, 2020, doi: 10.35234/fumbd.738007.
ISNAD	Alan, Abdullah - Karabatak, Murat. “Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 32/2 (Eylül 2020), 531-540. https://doi.org/10.35234/fumbd.738007.
JAMA	Alan A, Karabatak M. Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2020;32:531–540.
MLA	Alan, Abdullah ve Murat Karabatak. “Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 32, sy. 2, 2020, ss. 531-40, doi:10.35234/fumbd.738007.
Vancouver	Alan A, Karabatak M. Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2020;32(2):531-40.