Makine öğrenmesi, herhangi bir insan müdahalesi olmadan elde olan verilerden veya analizlerinden daha iyi sonuçlar elde edilmesine yardımcı olan alanlardan biridir. Ciddi ve karmaşık durumları analiz etmek ve doğruluk oranı yüksek tahminlerde bulunmak için son yıllarda gelişen teknolojiyle birlikte özellikte tıbbi teşhis alanında yaygın olarak kullanılmaktadır. Bu çalışma kapsamında Pima Indians Diyabet veri seti (Pima Indian Diabetes Dataset) üzerinde Naive Bayes ve Destek Vektör Makineleri (DVM) makine öğrenme algoritmaları kullanılarak diyabet hastalığı erken evrede teşhis edilmeye çalışılmıştır. Kullanılan sınıflandırıcıların performanslarını artırmak için veri setinde eksik değerler çarpıklık durumuna göre tekrar yapılandırılmış, veri standardizasyonu standart ölçeklendirme kullanılarak yapılmıştır. Ayrıca sınıf dengesizlik probleminin sınıflandırma üzerindeki olumsuz etkisini azaltmak için Sentetik Azınlık Aşırı-Örnekleme (SMOTE) tekniği kullanılmıştır. Çalışma kapsamında oluşturulan sınıflandırıcıların değerlendirme kriterleri Doğruluk Oranı (Accuracy Rate), Kesinlik (Precision), Duyarlılık (Recall) ve F1-Skore (F1 Score) metrikleri kullanılarak hesaplanmıştır. Destek Vektör Makineleri %90 doğruluk oranı ile en iyi sunucu vermiştir.
Machine learning is one of the fields that help to get better results from data or analysis without any human intervention. In recent years with the developing technology, it is widely used in the field of medical diagnosis, especially to analyze serious and complex situations and make predictions with high accuracy. In this study, it was tried to diagnose diabetic disease at an early stage by using Naïve Bayes and Support Vector Machines (DVM) machine learning algorithms on Pima Indians Diabetes Dataset. In order to increase the performance of the classifiers used, the missing values in the data set were restructured according to the skewness, and data standardization was done using standard scaling. Then, the Synthetic Minority Oversampling (SMOTE) technique was used to reduce the negative effect of class imbalance problem on classification. Evaluation criteria of the classifiers created within the scope of the study were calculated by using Accuracy Rate, Precision, Recall and F1-Score (F1 Score) values. According to these results, Support Vector Machines gave the best server with 88% accuracy rate.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | December 31, 2021 |
Published in Issue | Year 2021 Issue: 32 |