The detection of diabetes is crucial for effective management and prevention of the disease, which poses significant health risks globally. This study introduces a novel approach to diabetes detection by combining advanced data balancing techniques and feature selection methods, including Lasso (L1) regularization, to enhance the performance of predictive models in imbalanced datasets. Techniques such as Random Under Sampling (RUS), Adaptive Synthetic Sampling (ADASYN), and Synthetic Minority Over-sampling Technique (SMOTE) were employed alongside models including Random Forest (RF), CatBoost (CB), Extreme Gradient Boosting (XGB), K-Nearest Neighbors (KNN), Gaussian Naive Bayes (GNB), Logistic Regression (LR), and Gradient Boosting (GB) to assess their impact on model accuracy and generalization capabilities. The findings reveal that the RF model achieved the highest accuracy of 93.25% when utilizing the SMOTE technique, underscoring the importance of appropriate data handling strategies in improving predictive outcomes. Furthermore, when all features were utilized without selection, the RF model attained an accuracy of 95.31%, indicating the model’s capacity to capture complex patterns when feature richness is maximized. The comprehensive methodology used in the study achieved a higher accuracy in diabetes detection than research in the literature and provided important outputs for developing reliable prediction models in healthcare.
Diabetes detection data balancing techniques imbalanced datasets predictive modeling health informatics
Diyabet, küresel ölçekte önemli sağlık riskleri oluşturmaktadır. Diyabetin tespiti, hastalığın etkili yönetimi ve önlenmesi için büyük önem taşımaktadır. Bu çalışma, dengesiz veri setlerinde diyabet tespiti için çeşitli dengeleme tekniklerini ve Lasso (L1) düzenlemesi de dahil olmak üzere özellik seçim yöntemlerini birleştirerek diyabet tespitine yeni bir yaklaşım getirmektedir. Çalışmada, Random Under Sampling (RUS), Adaptive Synthetic Sampling (ADASYN) ve Synthetic Minority Over-sampling Technique (SMOTE) gibi teknikler, Random Forest (RF), CatBoost (CB), Extreme Gradient Boosting (XGB), K-En Yakın Komşu (KNN), Gaussian Naive Bayes (GNB), Lojistik Regresyon (LR) ve Gradient Boosting (GB) modelleri ile kullanılarak bu tekniklerin model doğruluğu ve genelleme yetenekleri üzerindeki etkileri değerlendirilmiştir. Bulgular, SMOTE tekniği kullanıldığında RF modelinin %93,25 ile en yüksek doğruluğa ulaştığını göstermektedir, bu da uygun veri işleme stratejilerinin tahmin sonuçlarını iyileştirmede önemini vurgulamaktadır. Ayrıca, özellik seçimi yapılmaksızın tüm özellikler kullanıldığında, RF modeli %95,31 doğruluk elde etmiş ve bu da özellik zenginliği maksimize edildiğinde modelin karmaşık desenleri yakalama kapasitesini ortaya koymaktadır. Araştırmada kullanılan kapsamlı metodoloji, diyabet tespitinde literatürdeki araştırmalardan yüksek bir doğruluğa ulaşmış ve sağlık hizmetlerinde güvenilir tahmin modelleri geliştirmek için önemli çıktılar sağlamıştır.
Diyabet tespiti veri dengeleme teknikleri dengesiz veri setleri tahmine dayalı modelleme sağlık bilişimi
Birincil Dil | İngilizce |
---|---|
Konular | Makine Öğrenme (Diğer) |
Bölüm | MBD |
Yazarlar | |
Yayımlanma Tarihi | 27 Mart 2025 |
Gönderilme Tarihi | 25 Eylül 2024 |
Kabul Tarihi | 24 Ocak 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 37 Sayı: 1 |