Class imbalanced datasets are prevalent in real-world applications, including engineering, medical domain, financial sector, and others. Machine learning (ML)-based prediction models have successfully demonstrated the applicability of various algorithms for the solution of different problems. However, their application for the soil liquefaction issue considering the class imbalance situation is limited. This paper presents the prediction results of random forest (RF), support vector machine (SVM), and naïve bayes (NB) algorithms with different training sample sizes for soil liquefaction. The effect of oversampling methods, namely simple oversampling (OVER), random oversampling examples (ROSE), and synthetic minority oversampling technique (SMOTE), on the prediction performance of classification algorithms is also investigated. Performance results are evaluated by means of some metrics, including Accuracy, Kappa, Precision, Recall, and F-measure. The results concluded the effectiveness of applying oversampling methods on imbalanced data before the modeling phase. All of the oversampling methods helped to enhance the overall performances of the classification models. It is also observed that the SMOTE exhibited slightly better performance than other considered oversampling methods. Furthermore, the SVM model outperformed compared to RF and NB models when all algorithms were trained by the SMOTE algorithm.
Dengesiz sınıf veri kümeleri, mühendislik, tıp alanı, finans sektörü ve diğerleri dahil olmak üzere gerçek dünya uygulamalarında oldukça yaygındır. Makine öğrenimi (ML) tabanlı tahmin modelleri, farklı problemlerin çözümü için çeşitli algoritmaların uygulanabilirliğini başarıyla göstermiştir. Ancak sınıf dengesizliği durumu göz önüne alındığında zemin sıvılaşması sorununa yönelik uygulamaları sınırlıdır. Bu çalışma, zemin sıvılaşması için farklı eğitim örneği boyutlarına sahip rastgele orman (RF), destek vektör makinesi (SVM) ve naive bayes (NB) algoritmalarının tahmin sonuçlarını sunmaktadır. Ayrıca, basit aşırı örnekleme (OVER), rastgele aşırı örnekleme örnekleri (ROSE) ve sentetik azınlık aşırı örnekleme tekniğinin (SMOTE) gibi aşırı örnekleme yöntemlerinin sınıflandırma algoritmalarının tahmin performansı üzerindeki etkisi araştırılmıştır. Performans sonuçları, Accuracy, Kappa, Precision, Recall ve F-measure gibi metrikler aracılığıyla değerlendirilmiştir. Sonuçlar, modelleme aşamasından önce dengesiz veriler üzerinde aşırı örnekleme yöntemlerinin uygulanmasının etkili olduğu göstermiştir. Ayrıca, bütün aşırı örnekleme yöntemlerinin, sınıflandırma modellerinin genel performanslarını geliştirmeye yardımcı olduğu görülmüştür. SMOTE yönteminin diğer dikkate alınan aşırı örnekleme yöntemlerinden biraz daha iyi performans gösterdiği gözlemlenmiştir. Bununla beraber, bütün algoritmalar SMOTE algoritması ile eğitildiğinde, SVM modeli RF ve NB modellerine kıyasla daha iyi performans sergilemiştir.
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Early Pub Date | January 30, 2022 |
Publication Date | March 31, 2022 |
Published in Issue | Year 2022 Issue: 34 |