Epidemic diseases have been seen frequently in recent years. Today’s, thanks to advanced database systems, it is possible to reach the clinical and demographic data of citizens. With the help of these data, machine learning algorithms can predict how severe (at home, hospital or intensive care unit) the disease will be experienced by patients in the risk group before the epidemic begins to spread. With these estimates, necessary precautions can be taken. In this study, during the COVID-19 epidemic, the data obtained from the Italian national drug database was used. COVID-19 severity and the features (Age, Diabetes, Hypertension etc.) that affect the severity was estimated using data mining (CRISP-DM method), machine learning approaches (Bagged Trees, XGBoost, Random Forest, SVM) and an algorithm solving the unbalanced class problem (SMOTE). According to the experimental findings, the Bagged Classification and Regression Trees (Bagged CART) yielded higher accuracy COVID-19 severity prediction results than other methods (83.7%). Age, cardiovascular diseases, hypertension, and diabetes were the four highest significant features based on the relative features calculated from the Bagged CART classifier. The proposed method can be implemented without losing time in different epidemic diseases that may arise in the future.
Epidemic Diseases Severity Prediction SARS-COV-2 Machine Learning Data Mining Random Forest Extreme Gradient Boosting
Salgın hastalıklar son yıllarda sıklıkla görülmektedir. Günümüzde gelişmiş veritabanı sistemleri sayesinde vatandaşların klinik ve demografik verilerine ulaşmak mümkündür. Bu veriler yardımıyla makine öğrenme algoritmaları, salgın yayılmaya başlamadan önce risk grubundaki hastaların hastalığın ne kadar şiddetli (evde, hastanede veya yoğun bakım ünitesinde) yaşayacağını tahmin edebilir. Bu tahminler ile gerekli önlemler alınabilir. Bu çalışmada, COVID-19 salgını sırasında İtalya ulusal ilaç veri tabanından elde edilen veriler kullanılmıştır. COVID-19 şiddeti ve şiddeti etkileyen özellikler (Yaş, Diyabet, Hipertansiyon vb.), veri madenciliği (CRISP-DM Metodu), makine öğrenmesi yaklaşımları (Bagged Trees, XGBoost, Random Forest, SVM) ve dengesiz sınıf problemini çözen bir algoritma (SMOTE) kullanılarak tahmin edilmiştir. Deneysel bulgulara göre Torbalı Sınıflandırma ve Regresyon Ağaçları (Bagged CART), diğer yöntemlere göre (%83,7) daha yüksek doğrulukta COVID-19 şiddeti tahmin sonuçları vermiştir. Torbalı CART sınıflandırıcısından hesaplanan göreli özelliklere dayalı olarak yaş, kardiyovasküler hastalıklar, hipertansiyon ve diyabet en önemli dört özellik olarak tahmin edilmiştir. Önerilen yöntem ileride ortaya çıkabilecek farklı salgın hastalıklarda zaman kaybetmeden uygulanabilecektir.
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 29 Eylül 2022 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 11 Sayı: 3 |
Bu eser Creative Commons Atıf-GayriTicari-Türetilemez 4.0 Uluslararası Lisansı ile lisanslanmıştır.