Eğitimsel Veri Madenciliğinin alt dalı olan akademik performans tahminiyle ilgili çalışmalar son yıllarda arttı. Gerçek ortamlarda eğitimsel veri kümeleri çoğunlukla sınıf dengesizliğine ve çok sınıflı hedef değişkene sahiptir. Ancak bu veri kümesiyle yapılan çalışmalar oldukça azdır. Bu bağlamda, bu çalışmada, 23.05.2022-286783 etik no kararı ile Marmara Üniversitesi (MÜ) Teknoloji Fakültesi (TF) öğrencilerine ait veri seti kullanılarak, çok sınıflı dengesiz eğitimsel veri kümesiyle, riskli öğrencileri tespit etmek için öğrenci mezuniyet durum tahmini yapıldı. Veri ön işleme ve özellik seçimi (FS) aşamalarıyla 1394 örneklem ve 11 özellik elde edildi. 2016 yılına ait 153 öğrenci sağlamlık kontrolü için kullanıldı. 7 farklı FS ile elde edilen 11, 7 ve 5 özellik içeren 3 farklı veri kümesi oluşturuldu. 9 farklı örnekleme yöntemi ve 16 farklı makine öğrenmesi algoritması kullanılarak birbirinden farklı 750 model oluşturuldu. Modellere sağlamlık kontrolü yapıldı. Başarı ölçütü olarak F1 Score ve Repeated Stratified 5*5 fold-CV kullanıldı. Hiper parametre ayarları GridSearchCV ile yapıldı. Sonuç olarak RandomOverSampler+RandomForest F1 Score 0.9935 değeriyle en başarılı algoritma olmasına rağmen, en başarılı ve en tutarlı modeller 7 özellikli, None+ExtraTrees, None+MLP, None+Bagging_DesicionTree ve None+RandomForest modelleri oldu. Bu modellerle karar destek sistemi web uygulaması geliştirilerek MÜ TF öğretim üyelerine sunuldu.
Eğitimsel Veri Madenciliği Dengesiz Veri Kümesi Çok Sınıflı Veri Kümesi Tahmin Yeniden Örnekleme Yöntemleri Topluluk Yöntemleri
Studies on academic performance prediction, a sub-branch of Educational Data Mining, have increased in recent years. Educational datasets in real environments often have class imbalanced and multi-class target variables. However, studies with these datasets are very few. In this context, in this study, with the ethical no decision of 23.05.2022-286783, using the data set of Marmara University (MU) Faculty of Technology (TF) students, a student graduation status estimation was made with the multiclass imbalanced educational dataset to identify the students at risk. 1394 samples and 11 features were obtained through data preprocessing and feature selection (FS) stages. 153 students belonging to 2016 were used for robustness control. 3 different datasets containing 11, 7 and 5 features obtained with 7 different FS were created. Using 9 different sampling methods and 16 different machine learning algorithms, 750 different models were created. Models were checked for robustness. F1 Score and Repeated Stratified 5*5 fold-CV were used as success criteria. Hyperparameter settings were made with GridSearchCV. As a result, although ROS+RF was the most successful algorithm with an F1 Score of 0.9935, the most successful and most consistent models were the 7-featured None+ET, None+MLP, None+Bagging_DT and None+RF models. With these models, the decision support system web application was developed and presented to MU TF faculty members.
Primary Language | Turkish |
---|---|
Subjects | Computer Software |
Journal Section | Research Articles |
Authors | |
Publication Date | April 30, 2023 |
Submission Date | June 21, 2022 |
Acceptance Date | March 3, 2023 |
Published in Issue | Year 2023 Volume: 9 Issue: 1 |