The increasing availability of big data has led to the development of applications that make human life easier. In order to process this data correctly, it is necessary to extract useful and valid information from large data warehouses through a knowledge discovery process in databases (KDD). Data mining is an important part of this and it involves discovering data and developing models that extract unknown patterns. The quality of the data used in supervised machine learning algorithms plays a significant role in determining the success of predictions. One factor that improves the quality of data is a balanced dataset, where the input values are distributed close to each other. However, in practice, many datasets are unbalanced. To overcome this problem, oversampling techniques are used to generate synthetic data that is as close to real data as possible. In this study, we compared the performance of two oversampling techniques, SMOTE and KNNOR, on a variety of datasets using different machine learning algorithms. Our results showed that the use of SMOTE and KNNOR did not always improve the accuracy of the model. In fact, on many datasets, these techniques resulted in a decrease in accuracy. However, on certain datasets, both SMOTE and KNNOR were able to increase the accuracy of the model. Our results indicate that the effectiveness of oversampling techniques varies depending on the specific dataset and machine learning algorithm being used. Therefore, it is crucial to assess the effectiveness of these methods on a case-by-case basis to determine the best approach for a given dataset and algorithm.
Büyük verinin artan mevcudiyeti, insan hayatını kolaylaştıran uygulamaların gelişmesine yol açmıştır. Bu veriyi doğru şekilde işlemek için, bilgi keşfi veritabanları (KDD) olarak adlandırılan büyük veri deposundan faydalı ve geçerli bilgiyi çıkarmak gereklidir. KDD işlemlerinin önemli bir parçası olan veri madenciliği, veriyi keşfetmeyi ve bilinmeyen desenleri çıkarmak için model geliştirmeyi içermektedir. Supervised makine öğrenimi algoritmalarında kullanılan verinin kalitesi, tahmin başarısının belirlenmesinde önemli bir rol oynar. Verinin kalitesini arttıran bir faktör, girdi değerlerinin birbirine yakın dağılmış olmasıdır. Ancak pratikte, birçok veri seti dengesizdir. Bu sorunu aşmak için, oversampling teknikleri gerçek veriye en yakın şekilde sentetik veri üretebilmek için kullanılır. Bu çalışmada, farklı veri setlerinde iki oversampling tekniği olan SMOTE ve KNNOR'un performanslarını farklı makine öğrenimi algoritmaları kullanarak karşılaştırdık. Sonuçlarımız, SMOTE ve KNNOR'un modellerin doğruluğunu her zaman arttırmadığını, hatta birçok veri setinde bu tekniklerin doğrulukta azalma yaratabileceğini gösterdi. Ancak belirli veri setlerinde, SMOTE ve KNNOR modellerin doğruluğunu arttırmayı başardı. Bulgularımız, oversampling tekniklerinin etkililiğinin belirli veri seti ve makine öğrenimi algoritmasına bağlı olarak değişebileceğini sugere etmektedir. Dolayısıyla, veri seti ve algoritma için en iyi yaklaşımı belirlemek için bu tekniklerin performanslarını durum bazında değerlendirmek önemlidir.
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Temmuz 2023 |
Gönderilme Tarihi | 20 Şubat 2023 |
Kabul Tarihi | 23 Haziran 2023 |
Yayımlandığı Sayı | Yıl 2023 Cilt: 13 Sayı: 3 |