Araştırma Makalesi
BibTex RIS Kaynak Göster

Data Management System Based on Machine Learning Methods

Yıl 2024, Cilt: 7 Sayı: 1, 20 - 27, 30.06.2024
https://doi.org/10.55117/bufbd.1418551

Öz

Data is the fundamental structure we rely on to acquire information. The evolution of technology has significantly increased the importance of databases in various sectors, especially in education and the business world. Particularly with sensors becoming integral to our daily lives, everything from the steps we take to our preferred shopping habits has transformed into data. To make data meaningful, preprocessing mechanisms come into play, ensuring that the available data is processed into a comprehensible format. One of the major challenges encountered when preprocessing a database is the existence of missing data. Traditional statistical methods used to address this issue struggle to cope with the voluminous datasets of the present day, making way for the integration of artificial intelligence. This article delves into a Python-based desktop application developed with the aim of effectively predicting numerical missing data within datasets. The application combines the random forest regressor algorithm and the iterative imputer module, presenting a robust and innovative approach to missing data prediction. The application has been tested on four different datasets, achieving prediction accuracies ranging from 57% to 79%. This significant tool endeavors to optimize the prediction of missing data by providing a user-friendly interface, making it accessible even to users not specialized in data mining and preprocessing. The application aims to address the effective prediction of numerical missing data in datasets by combining the random forest regressor algorithm and the iterative imputer module. Tested on four distinct datasets, the application demonstrates prediction accuracies ranging from 57% to 79%. This noteworthy tool not only provides a powerful and innovative approach to missing data prediction but also ensures accessibility for users lacking expertise in data mining and preprocessing.

Kaynakça

  • H. T. Moges, K. Dejaeger, W. Lemahieu, and B. Baesens, “A multidimensional analysis of data quality for credit risk management: New insights and challenges,” Information and Management, vol. 50, no. 1, pp. 43–58, 2013, doi: 10.1016/j.im.2012.10.001.
  • H.-T. Moges, K. Dejaeger, W. Lemahieu, and B. Baesens, “A multidimensional analysis of data quality for credit risk management: New insights and challenges,” Information & Management, vol. 50, no. 1, pp. 43–58, Jan. 2013, doi: 10.1016/j.im.2012.10.001.
  • K. Veriler et al., “The Effects of Different Methods Used for Value Imputation Instead of Missing Values on Model Data Fit Statistics,” 2015.
  • Y. Celik, “Comparison of Data Used For Loss Of Data Mining Methods,” 2013. [Online]. Available: https://www.researchgate.net/publication/348787393
  • F. Arslan et al., “Yapay Zekâ Tabanlı Büyük Veri Yönetim Aracı.”
  • M. Abdella and T. Marwala, “The Use Of Genetic Algorithms and Neural Networks to Approximate Missing Data in Database,” 2005.
  • D. R. RJA Little, Statistical analysis with missing data. 2019.
  • G. Hoffmann, A. Bietenbeck, R. Lichtinghagen, and F. Klawonn, “Using machine learning techniques to generate laboratory diagnostic pathways—a case study,” J Lab Precis Med, vol. 3, pp. 58–58, Jun. 2018, doi: 10.21037/jlpm.2018.06.01.
  • Kaggle, “Gold Price Prediction Dataset,” 2019. [Online]. Available: https://www.kaggle.com/datasets/sid321axn/gold-price-prediction-dataset. [Accessed: 10-Dec-2023]
  • Kaggle, “Bucharest House Price Dataset,” 2022. [Online]. Available: https://www.kaggle.com/datasets/denisadutca/bucharest-house-price-dataset. [Accesed: 20-Dec-2023]
  • S. Aydin, O. Ustun, A. Ghosigharehaghaji, T. Tavaci, A. Yilmaz, and M. Yilmaz, “Hydrothermal Synthesis of Nitrogen-Doped and Excitation-Dependent Carbon Quantum Dots for Selective Detection of Fe3+ in Blood Plasma,” Coatings, vol. 12, no. 9, Sep. 2022, doi: 10.3390/coatings12091311.

Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi

Yıl 2024, Cilt: 7 Sayı: 1, 20 - 27, 30.06.2024
https://doi.org/10.55117/bufbd.1418551

Öz

Veri, bilgiyi edinebilmek için ihtiyaç duyduğumuz temel yapıdır. Geçmişten günümüze teknoloji ile gelişen veri tabanları eğitim ve iş dünyası başta olmak üzere her alanda önemini arttırmakta ve özellikle sensörlerin hayatımızın her adımında yer almaya başlamasıyla attığımız adımlardan yapmayı tercih ettiğimiz alışverişlere kadar hayatımızdaki her şey birer veriye dönüşmektedir. Veriyi anlamlı hale getirebilmek için ise veri ön işleme mekanizmaları devreye sokularak elimizdeki verilerin kullanabileceğimiz şekilde anlamlı olması sağlanmaktadır. Bir veri tabanını ön işleme tabi tuttuğumuzda karşılaştığımız en büyük sorunlardan biri eksik verilerin varlığıdır. Bu sorunun çözümü için kullanılan geleneksel istatistiksel yöntemler günümüz veri yığınlarıyla başa çıkamamakta, gelişen teknolojiyle yerini yapay zekaya bırakmaktadır. Bu makale, veri setlerindeki nümerik eksik verilerin etkili bir şekilde tahmin edilmesi amacıyla geliştirilmiş olan Python tabanlı bir masaüstü uygulamasını ele almaktadır. Uygulama, rastgele orman regresyonu algoritması ve yinelemeli tamamlayıcı modülünü birleştirerek, eksik veri tahmininde güçlü ve yenilikçi bir yaklaşım sunmaktadır. Uygulama dört farklı veri seti üzerinde test edilmiş ve %57 ile %79 arasında bir doğrulukla tahmin yapılmıştır. Bu önemli araç, veri madenciliği ve veri ön işleme konularında uzman olmayan kullanıcılar için dahi kullanımı kolay bir arayüz sunarak, eksik verilerin tahminini optimize etmeyi amaçlamaktadır.

Destekleyen Kurum

Atatürk Üniversitesi Bilimsel Araştırma Proje Koordinasyon Birimi (BAP)

Teşekkür

Bu çalışmanın konusunun belirlenmesinde ve hazırlanma sürecinin her aşamasında değerli bilgilerini ve zamanını benden esirgemeyerek her fırsatta çalışmamla yakından ilgilenen, eleştirileriyle yol gösteren danışman hocam Doç. Dr. Gökay AKKAYA’ ya teşekkür ve minnetimi özellikle belirtmek istiyorum. Ayrıca Atatürk Üniversitesi Bilimsel Araştırma Projeleri (BAP) koordinasyon birimi tarafından desteklenen ve FYL-2023-11813 nolu proje kapsamında ihtiyaç duyulan bütçe tahsisini sağladıkları ve değerli katkılarından dolayı BAP koordinasyon birimine teşekkür ederim.

Kaynakça

  • H. T. Moges, K. Dejaeger, W. Lemahieu, and B. Baesens, “A multidimensional analysis of data quality for credit risk management: New insights and challenges,” Information and Management, vol. 50, no. 1, pp. 43–58, 2013, doi: 10.1016/j.im.2012.10.001.
  • H.-T. Moges, K. Dejaeger, W. Lemahieu, and B. Baesens, “A multidimensional analysis of data quality for credit risk management: New insights and challenges,” Information & Management, vol. 50, no. 1, pp. 43–58, Jan. 2013, doi: 10.1016/j.im.2012.10.001.
  • K. Veriler et al., “The Effects of Different Methods Used for Value Imputation Instead of Missing Values on Model Data Fit Statistics,” 2015.
  • Y. Celik, “Comparison of Data Used For Loss Of Data Mining Methods,” 2013. [Online]. Available: https://www.researchgate.net/publication/348787393
  • F. Arslan et al., “Yapay Zekâ Tabanlı Büyük Veri Yönetim Aracı.”
  • M. Abdella and T. Marwala, “The Use Of Genetic Algorithms and Neural Networks to Approximate Missing Data in Database,” 2005.
  • D. R. RJA Little, Statistical analysis with missing data. 2019.
  • G. Hoffmann, A. Bietenbeck, R. Lichtinghagen, and F. Klawonn, “Using machine learning techniques to generate laboratory diagnostic pathways—a case study,” J Lab Precis Med, vol. 3, pp. 58–58, Jun. 2018, doi: 10.21037/jlpm.2018.06.01.
  • Kaggle, “Gold Price Prediction Dataset,” 2019. [Online]. Available: https://www.kaggle.com/datasets/sid321axn/gold-price-prediction-dataset. [Accessed: 10-Dec-2023]
  • Kaggle, “Bucharest House Price Dataset,” 2022. [Online]. Available: https://www.kaggle.com/datasets/denisadutca/bucharest-house-price-dataset. [Accesed: 20-Dec-2023]
  • S. Aydin, O. Ustun, A. Ghosigharehaghaji, T. Tavaci, A. Yilmaz, and M. Yilmaz, “Hydrothermal Synthesis of Nitrogen-Doped and Excitation-Dependent Carbon Quantum Dots for Selective Detection of Fe3+ in Blood Plasma,” Coatings, vol. 12, no. 9, Sep. 2022, doi: 10.3390/coatings12091311.
Toplam 11 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Endüstri Mühendisliği
Bölüm Araştırma Makaleleri
Yazarlar

Ülgen Aydın 0000-0002-0421-0094

Gökay Akkaya 0000-0001-5161-7228

Erken Görünüm Tarihi 28 Haziran 2024
Yayımlanma Tarihi 30 Haziran 2024
Gönderilme Tarihi 16 Ocak 2024
Kabul Tarihi 30 Ocak 2024
Yayımlandığı Sayı Yıl 2024 Cilt: 7 Sayı: 1

Kaynak Göster

APA Aydın, Ü., & Akkaya, G. (2024). Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi. Bayburt Üniversitesi Fen Bilimleri Dergisi, 7(1), 20-27. https://doi.org/10.55117/bufbd.1418551
AMA Aydın Ü, Akkaya G. Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi. Bayburt Üniversitesi Fen Bilimleri Dergisi. Haziran 2024;7(1):20-27. doi:10.55117/bufbd.1418551
Chicago Aydın, Ülgen, ve Gökay Akkaya. “Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi”. Bayburt Üniversitesi Fen Bilimleri Dergisi 7, sy. 1 (Haziran 2024): 20-27. https://doi.org/10.55117/bufbd.1418551.
EndNote Aydın Ü, Akkaya G (01 Haziran 2024) Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi. Bayburt Üniversitesi Fen Bilimleri Dergisi 7 1 20–27.
IEEE Ü. Aydın ve G. Akkaya, “Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi”, Bayburt Üniversitesi Fen Bilimleri Dergisi, c. 7, sy. 1, ss. 20–27, 2024, doi: 10.55117/bufbd.1418551.
ISNAD Aydın, Ülgen - Akkaya, Gökay. “Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi”. Bayburt Üniversitesi Fen Bilimleri Dergisi 7/1 (Haziran 2024), 20-27. https://doi.org/10.55117/bufbd.1418551.
JAMA Aydın Ü, Akkaya G. Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi. Bayburt Üniversitesi Fen Bilimleri Dergisi. 2024;7:20–27.
MLA Aydın, Ülgen ve Gökay Akkaya. “Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi”. Bayburt Üniversitesi Fen Bilimleri Dergisi, c. 7, sy. 1, 2024, ss. 20-27, doi:10.55117/bufbd.1418551.
Vancouver Aydın Ü, Akkaya G. Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi. Bayburt Üniversitesi Fen Bilimleri Dergisi. 2024;7(1):20-7.

Taranılan Dizinler