Data imbalance refers to the unequal distribution of classes within a dataset that directly affects the accuracy of machine learning classification algorithms. Although many resampling techniques have been proposed by researchers, learning from imbalanced data is still considered one of the contemporary challenges. The class imbalanced problem has been complicated as most of the existing techniques don't manage the similarity relationships between minority and majority classes well. In addition, due to the complex relationships among classes, most of the existing techniques do not focus on retaining valuable samples in the majority class(es) properly. In this article, a salp swarm optimization-based under-sampling technique (SSBUT) is proposed to address data class imbalance problems. Utilizing the proposed SSBUT, the similarity relationship among the samples of the majority class is well analyzed, and the samples that do not affect the accuracy of the classification algorithm are eliminated from the majority class. The performance of the proposed SSBUT has been tested on benchmark medical imbalanced datasets and the obtained results have been compared with state-of-the-art under-sampling techniques. The experimental results show that the proposed SSBUT consistently outperformed the state-of-the-art under-sampling techniques in terms of various evaluation criteria.
Classification Machine learning Medical Imbalanced data classification Salp swarm optimization Under-sampling
Veri dengesizliği bir veri kümesi içindeki sınıfların eşit olmayan dağılımıdır ve makine öğrenmesi algoritmalarının başarısını doğrudan etkilemektedir. Araştırmacılar tarafından birçok yeniden örnekleme teknikleri önerilmiş olmasına rağmen, dengesiz verilerden öğrenme hala güncel zorluklardan biri olarak kabul edilmektedir. Mevcut tekniklerin birçoğu azınlık ve çoğunluk sınıflar arasındaki benzerlik ilişkilerini iyi bir şekilde yönetemediği için sınıf dengesizliği sorunu karmaşık hale gelmektedir. Ayrıca, sınıflar arasındaki karmaşık ilişkilerden dolayı mevcut tekniklerin birçoğu çoğunluk sınıf(lar)ında ki değerli örneklerin uygun bir şekilde veri kümesinde tutulmasına odaklanamaz. Bu makalede, veri sınıf dengesizliği problemini çözmek için salp sürüsü optimizasyon yöntemi kullanılarak bir aşağı örnekleme tekniği (SSBUT) önerilmiştir. Önerilen SSBUT çoğunluk sınıfına ait örnekler arasındaki benzerlik ilişkisini iyi analiz eder ve sınıflandırma algoritmasının doğruluğunu etkilemeyen örnekleri çoğunluk sınıfından çıkarır. Önerilen SSBUT'un performansı, tıbbi dengesiz veri kümeleri üzerinde test edilmiş ve elde edilen sonuçlar en güncel aşağı örnekleme teknikleri ile karşılaştırılmıştır. Deneysel sonuçlara göre, önerilen SSBUT tekniği birçok değerlendirme ölçütüne göre en güncel aşağı örnekleme tekniklerinden daha iyi performans sergilemiştir.
Aşağı-örnekleme Makine öğrenmesi Salp sürüsü optimizasyonu Sınıflandırma Tıbbi Dengesiz veri sınıflandırması
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 30 Ocak 2022 |
Yayımlanma Tarihi | 31 Mart 2022 |
Yayımlandığı Sayı | Yıl 2022 Sayı: 34 |