Today, with the rapid increase in data, data analysis with machine learning methods has become popular in many areas. Missing values and imbalanced class data are common problems in real-world datasets. These problems negatively affect the performance of machine learning methods and cause the model to obtain erroneous or incorrect results. The missing values imputation and eliminating the class imbalance are important in the data preprocessing stage. In particular, the balance of classes in health data is very important as the accuracy and completeness of the data affect the performance of machine learning methods. In this article, a comparative study of successful methods in the literature for investigating problems with imbalanced data classification with missing values in machine learning was conducted using the PIMA diabetes dataset. According to the results, the SMOTEENN algorithm, which combines undersampling and oversampling methods in class imbalance, and the use of multiple imputation with chained equations for missing values, were showed an F-score value of 91%, approximately 9% better than the other best methods in classifying patients and healthy individuals.
Missing value Imbalanced dataset Machine learning Health dataset
Günümüzde verilerin hızla artmasıyla makine öğrenmesi yöntemleri ile veri analizi birçok alanda popüler hale gelmiştir. Gerçek dünya veri kümelerinde eksik değerler ve dengesiz sınıf verileri sıklıkla karşılaşılan sorunlardır. Bu sorunlar, makine öğrenmesi yöntemlerinin başarımlarını olumsuz yönde etkilemekte ve modelin hatalı veya yanlış sonuçlar elde etmesine neden olmaktadır. Verilerdeki eksik değerlerin doldurulması ve sınıf dengesizliğinin ortadan kaldırılması veri ön işleme aşamasında önem arz etmektedir. Özellikle, sağlık verilerinde sınıfların dengesi verilerin doğruluğu ve eksiksizliği makine öğrenmesi yöntemlerinin performansını etkilediğinden çok önemlidir. Bu makalede, makine öğrenmesinde eksik değerlere sahip dengesiz veri sınıflandırması ile ilgili sorunları araştırmak için literatürde başarılı olan yöntemlerin karşılaştırmalı bir çalışması PIMA diyabet veri kümesi kullanılarak yapılmıştır. Elde edilen sonuçlara göre, sınıf dengesizliğinde eksik ve aşırı örnekleme yöntemlerinin birleştirildiği SMOTEENN algoritması ile eksik değerlerde zincirleme denklemlerle çoklu atama yönteminin kullanılması hasta ve sağlıklı bireylerin sınıflandırılmasında %91 F-skor değeri ile diğer en iyi yöntemlerden yaklaşık %9 oranında daha iyi performans göstermiştir
Eksik değer Dengesiz veri kümesi Makine öğrenmesi Sağlık veri kümesi
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler(Araştırma) |
Yazarlar | |
Erken Görünüm Tarihi | 29 Haziran 2023 |
Yayımlanma Tarihi | 29 Haziran 2023 |
Yayımlandığı Sayı | Yıl 2023 Cilt: 16 Sayı: 1 |
https://i.creativecommons.org/l/by-nc/4.0Makale Kabulü | |
Çevrimiçi makale yüklemesi yapmak için kullanıcı kayıt/girişini kullanınız. Dergiye gönderilen makalelerin kabul süreci şu aşamalardan oluşmaktadır: 1. Gönderilen her makale ilk aşamada en az iki hakeme gönderilmektedir. 2. Hakem ataması, dergi editörleri tarafından yapılmaktadır. Derginin hakem havuzunda yaklaşık 200 hakem bulunmaktadır ve bu hakemler ilgi alanlarına göre sınıflandırılmıştır. Her hakeme ilgilendiği konuda makale gönderilmektedir. Hakem seçimi menfaat çatışmasına neden olmayacak biçimde yapılmaktadır. 3. Hakemlere gönderilen makalelerde yazar adları kapatılmaktadır. 4. Hakemlere bir makalenin nasıl değerlendirileceği açıklanmaktadır ve aşağıda görülen değerlendirme formunu doldurmaları istenmektedir. 5. İki hakemin olumlu görüş bildirdiği makaleler editörler tarafından benzerlik incelemesinden geçirilir. Makalelerdeki benzerliğin %25’ten küçük olması beklenir. 6. Tüm aşamaları geçmiş olan bir bildiri dil ve sunuş açısından editör tarafından incelenir ve gerekli düzeltme ve iyileştirmeler yapılır. Gerekirse yazarlara durum bildirilir.
Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır. |