Kümeleme, grupları keşfetmek ve veri setinin
altında yatan ilginç dağılımları ve kalıpları saptamak için veri madenciliği
işleminde en yararlı yöntemlerden biridir. Kümeleme analizi verilen bir veri
kümesini belirlenmiş özelliklere göre gruplara
parçalama çabasıdır. Böylece bir grup içindeki veri noktaları, farklı gruptaki
noktalara göre birbirine daha çok benzerdir. Kümeleme, sert veya bulanık modda
gerçekleştirilebilir. Bulanık kümeleme analizinde sağlıklı ve anlamlı sonuçlara
ulaşabilmek için önemli durum başlangıç parametrelerin belirlenmesidir. Kümeleme
analizlerinde genel olarak başlangıç küme sayısına ihtiyaç vardır ancak bir
veri kümesi için uygun küme sayısının önceden tahmin edilmesi alanın uzmanı
için zor bir işlemdir. Bu çalışmada bu sorunun üstesinden gelebilmek için literatürdeki
geçerlilik indeksleri araştırılmış ve genetik veri seti üzerinde uygulanmıştır.
Sonuçlar basitçe analiz edilmiş olup bu indekslerin de her zaman en uygun sonuç
vermediği görülmüştür.
Clustering is one of the
most useful tasks in data mining process for discovering groups and identifying
interesting distributions and patterns in the underlying data. Cluster analysis
seeks to partition given data set into groups based on specified features so
that the data points within a group are more similar to each other than the
points in different groups. Clustering can be performed in hard or fuzzy mode.
One of the important conditions in order to reach accurate results in
clustering analysis is to determine the initial parameters. In many studies,
researchers do not have prior information about the number of clusters.
Clustering algorithms in general need the number of clusters as a prior, which
is mostly hard for domain expert to estimate. In this work, in order to
overcome this problem, cluster validity indices in literature were reviewed and
these indices were used in genetic data set. The result was simply analyzed and
according to the analysis, validity indices do not always discover the optimal
number of clusters.
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 30 Mart 2018 |
Kabul Tarihi | 15 Kasım 2017 |
Yayımlandığı Sayı | Yıl 2018 Cilt: 2 Sayı: 1 |