Currently the approach of biological meaningfulness detection from gene microarray datasets obtained with microarray technology is used effectively in many areas such as disease diagnosis and differentiation of cancer types. However, since datasets obtained with this technology measure gene expression profiles collectively, the number of features in the dataset can be quite high. The small number of samples in gene microarray datasets, the high number of features and where the data is noisy significantly complicates the preparation process of these datasets. In order for machine learning models to successfully classify, the number of features that represent the size of the dataset should be reduced. In the proposed method, gene microarray data is taken as input and Information Gain, Fisher Correlation Scoring, ReliefF and, Chi-Square methods are applied separately for feature selection. After this stage, a sub-dataset containing the new genes is obtained and a pool of genes for Genetic Algorithm is created according to this dataset. Bayes classifier is trained using the sub-dataset created with the genes of the most successful chromosome. Thus, the classification process of cancer data is successfully completed. The model proposed in this study was applied to datasets that are frequently used in the literature and high success rates were obtained in classification. As a result; acceptable feature selection methods and the hybrid method based on Genetic Algorithm generally provided the most appropriate results on the all test data.
ensemble method genetic algorithm cancer microarray naive bayes feature selection classification
Günümüzde mikrodizi teknolojisi ile elde edilen gen mikrodizi veri setlerinden biyolojik anlamlılık tespiti yaklaşımı, hastalık tanısı ve kanser türlerinin ayırt edilmesi gibi pek çok alanda etkin bir şekilde kullanılmaktadır. Fakat bu teknoloji ile elde edilen veri kümeleri, gen ifade profillerini toplu olarak ölçtüğü için veri kümesindeki özellik sayısı oldukça fazla olabilmektedir. Gen mikrodizi veri kümelerindeki örnek sayılarının az olması, özellik sayısının fazla olması ve verilerin gürültülü olması bu veri kümelerinin ön hazırlık işlemlerini oldukça karmaşık hale getirmektedir. Makine öğrenmesi modellerinin sınıflandırmayı başarıyla yapabilmesi için özellik sayısının, yani veri kümesinin boyutunun azaltılması gerekmektedir. Önerilen yöntemde, gen mikrodizi verileri girdi olarak alınır ve öznitelik seçimi amacıyla Bilgi Kazancı, Fisher Korelasyon Skorlama, ReliefF ve Ki-Kare yöntemleri ayrı ayrı uygulanır. Bu aşamadan sonra yeni gen alt veri kümesi elde edilir ve Genetik Algoritmanın gen havuzu oluşturulur. Bu algoritmanın uygun adımlarda tekrar çalıştırılması sonrasında seçilen en başarılı kromozomun genleri ile oluşturulan alt veri kümesi kullanılarak Naive Bayes sınıflandırıcısı eğitilir. Böylece kanser verilerinin sınıflandırılması işlemi tamamlanır. Bu çalışmada önerilen model, literatürde sıklıkla kullanılan veri kümelerine uygulanmış ve sınıflandırmada yüksek başarı oranları elde edilmiştir. Sonuç olarak; uygun öznitelik seçim yöntemleri ve Genetik Algoritma temelli hibrit yöntem genel anlamda tüm test verileri üzerinde en uygun sonuçlara ulaşılmasını sağlamıştır.
ensemble metot genetik algoritma kanser mikrodizi naive bayes öznitelik seçimi sınıflandırma
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Tasarım ve Teknoloji |
Yazarlar | |
Yayımlanma Tarihi | 29 Aralık 2021 |
Gönderilme Tarihi | 26 Eylül 2021 |
Yayımlandığı Sayı | Yıl 2021 Cilt: 9 Sayı: 4 |