Gerçek hayattaki veri kümeleri, veri tabanlarında reel sayılarla sunulmaktadır. Öte yandan, birliktelik kuralları ve tümevarım kuralları gibi birçok veri madenciliği yöntemi yalnızca ayrık öznitelikler gerektirirler. Bu nedenle sürekli özniteliklere sahip veri kümelerinin ayrık özniteliklere sahip veri kümelerine dönüştürülmesi gerekmektedir. Ayrıklaştırma işlemi, belirli bir sürekli öznitelik verisini aralıklara bölerek değer sayısını azaltmaktır. Bu çalışmada, kural ve ağaç tabanlı JRip, OneR, J48 ve Part sınıflandırıcı algoritmaları ile sekiz ayrıklaştırma yöntemi naliz edilmiştir. Denemeler, UCI veri deposundan alınan gerçek veri setlerinden oluşmakta ve on kat çapraz doğrulamayı sonuçlarını içermektedir. Bu algoritmaların sınıflandırma başarımı önemli ölçüde artırmada ayrıklaştırmanın önemli bir adım araç olduğunu görülmüştür. Son olarak, çalışma sonucunda PIMA, WBC ve DERMA veri setleri için sırasıyla MDL ve J48, CAIM ve Jrip ve Extended Chi ve J48 yöntemlerinin en yüksek doğruluğu verdiği görülmüştür.
Sınıflandırma Sürekli Öznitelikler Ayrıklaştırma Veri Madenciliği
Data sets in real life are given by real numbers in databases. On the other hand, many data mining methods like association rules and induction rules require only discrete attributes. For this reason, it is necessary to convert data sets with continuous attributes into data sets with discrete attributes. Discretization process is reducing the number of values for a given continuous attribute by dividing the range of the attribute into intervals. In this paper, eight discretization methods are presented with JRip, OneR, J48, and Part classifier algorithms of rules and tress. Experiments include a ten-fold cross validation provided on the basis of real-life data sets from the UCI repository. We show that discretization is important step to significantly increase the classification results of these algorithms. Finally, as a result of the study, it was seen that MDL and J48, CAIM and Jrip and Extended Chi and J48 methods gave the highest accuracy for PIMA, WBC and DERMA data sets, respectively.
Classification Continuous attributes Discretization Data Mining
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 7 Mayıs 2022 |
Yayımlandığı Sayı | Yıl 2022 Sayı: 35 |