Explaining Data Preprocessing Methods for Modeling and Forecasting with the Example of Product Drying
Yıl 2024,
Cilt: 21 Sayı: 2, 482 - 500, 13.03.2024
Cem Korkmaz
,
İlyas Kacar
Öz
Although regression is a traditional data processing method, machine and deep learning methods have been widely used in the literature in recent years for both modelling and prediction. However, in order to use these methods efficiently, it is important to perform a preliminary evaluation to understand the data type. Therefore, pre-evaluation procedures are described in this study. Experimental uncertainty analysis was performed to determine the measurement uncertainties in the measurement devices and sensors used in the drying experimental setup. Significant and insignificant relationships between variables in the data set were determined by Pearson correlation matrix. Autocorrelation and partial autocorrelation functions were used to determine the time series lag in the drying data and an AR(5) series with 5 lags was determined. The data were found to have variable variance due to peaks and troughs in the raw data resulting from the natural behaviour of the drying process. Modelling success was achieved with the normalisation pre-evaluation process performed without distorting the raw data. Thus, it has been shown that better models can be obtained compared to traditional models. In order to avoid unnecessary time and computational costs in the trial and error method used to determine the number of hidden layers and neurons in the machine learning method, various formulas proposed in the literature were compared. It is shown that the correlation coefficient alone is not sufficient to determine the goodness of the model. In modelling the data in this study, the NARX model was found to converge to the desired value faster and with less error than ANFIS and LSTM models. In the simulation of a rotary drum dryer, the optimum number of mesh elements was determined as 1137 by mesh independence analysis. In this way, unnecessary over-calculations were also prevented. Of course, all these methods are already available in statistical science. However, in this study, the methods to be used for modelling and prediction purposes are carefully selected and explained with examples, especially for young researchers who are outside this field to gain speed and easy comprehension.
Kaynakça
- Agrotime (2023). Organomineral toprak düzenleyici; Agrotime Gold Sulphur gübre. https://www.agrotimegubre.com.tr/-1.html (Erişim Tarihi: 08.02.2024)
- Altan, A. D., Diken, B. and Kayişoğlu, B. (2021). Prediction of Photovoltaic Panel Power Outputs Using Time Series and Artificial Neural Network Methods. Tekirdağ Ziraat Fakültesi Dergisi, 18(3), 457-469.
- Amini, G., Salehi, F., and Rasouli, M. (2021). Drying kinetics of basil seed mucilage in an infrared dryer: Application of GA-ANN and ANFIS for the prediction of drying time and moisture ratio. Journal of Food Processing and Preservation, 45(3), e15258. https://doi.org/10.1111/jfpp.15258
- Amiroh, K., Rahmawati, D., and Wicaksono, A. Y. (2021). Intelligent System for Fall Prediction Based on Accelerometer and Gyroscope of Fatal Injury in Geriatric. Jurnal Nasional Teknik Elektro, 10(3): 155-159. https://doi.org.10.25077/jnte.v10n3.936.2021
- Aydın, A. (2016). Precision Feeding in Laying Hens by Sound Technology. Journal of Agricultural Machinery Science, 13(3): 134-142.
- Baran, M. F., Dalmış, İ. S. ve Kayışoğlu, B. (2015). Kanola Bitkisinin Parçalanmaya Yönelik Bazı Mekanik Özelliklerinin Belirlenmesi. Avrupa Bilim ve Teknoloji Dergisi, 2(5): 143-148.
- Bayhan, Y. (2021). İkinci ürün ayçiçeği üretiminde farklı toprak işleme ve doğrudan ekim yöntemlerinin enerji kullanım etkinliğinin karşılaştırılması. Tarım Makinaları Bilimi Dergisi, 13(2): 102-109.
- Beigi, M. and Torki, M. (2021). Experimental and ANN modeling study on microwave dried onion slices. Heat and Mass Transfer, 57: 787–796.
- Çelen, S. (2016). Mikrodalga bantlı kurutucunun gıda kurutmada kullanılabilirliği ve modellenmesi. Tekirdağ Ziraat Fakültesi Dergisi, 13(4): 71-83.
- Dash, S. and Venkatasubramanian, V. (2000). Challenges in the industrial applications of fault diagnostic systems. Computers & Chemical Engineering, 24(2-7): 785-791.
- Datatab (2024). Confidence Interval [Simply explained]. https://www.youtube.com/watch?v=ENnlSlvQHO0 (Accessed Date: 10.02.2024).
- Dong, L., Wang, J., Tseng, M.-L., Yang, Z., Ma, B. and Li, L.-L. (2020). Gyro Motor State Evaluation and Prediction Using the Extended Hidden Markov Model. Symmetry, 12(11): 1750, 1-21. https://doi.org/10.3390/sym12111750
- Erenturk, S. and Erenturk, K. (2007). Comparison of genetic algorithm and neural network approaches for the drying process of carrot. Journal of Food Engineering, 78, 905-912.
- Evci, G., ve Ülger, P. (2006). Çeltiğin Makineyle Kurutulmasında, Hasat Nemi İle Kurutma Nemi Arasındaki İlişkinin, Maksimum Kırıksız Pirinç Randımanı Yönünden Belirlenmesi. Tarım Makinaları Bilimi Dergisi, 3(3), 253-258.
- Hacıhafızoğlu, O. (2004). Çeltiğin kuruma davranışının teorik olarak incelenmesi ve sonuçların elipsoid modele uygulanması. (Doktora Tezi), Trakya Üniversitesi, Fen Bilimleri Enstitüsü, Makine Mühendisliği Anabilim Dalı, Edirne.
- Heaton, J. (2008). Introduction to Neural Networks with Java. Heaton Research, Incorporated; 2nd edition, Washington.
- HosseinTabari, Kisi, O., Ezani, A., and Talaee, P. H. (2012). SVM, ANFIS, regression and climate based models for reference evapotranspiration modeling using limited climatic data in a semi-arid highland environment. Journal of Hydrology, 444-445: 78-89. doi:10.1016/j.jhydrol.2012.04.007
- Kacar, İ. (2023). Mekanik Tasarım ve Analizin Bilimsel Esasları. Akademisyen Kitabevi, Ankara, Birinci baskı, 36-40.
- Kacar, İ., ve Korkmaz, C. (2021). Döner tamburlu kurutucularda gübre kurutma simülasyonu. Tarım Makinaları Bilimi Dergisi, 17(3): 94-100.
- Kacar, İ., ve Korkmaz, C. (2022a). N25P5K5 türü yeni nesil bir bitki besininin kuruma kinetiğinin regresyon ve makine öğrenme yöntemleri ile belirlenmesi, Çukurova Üniversitesi Mühendislik Fakültesi Dergisi, 37(4): 989-1004. https://doi.org/10.21605/cukurovaumfd.1230921
- Kacar, İ., ve Korkmaz, C. (2022b). Çok katmanlı algılayıcı ağı, uzun kısa süreli bellek ağı ve regresyon yöntemleri ile tarımsal kurutma tahmini Gümüşhane Üniversitesi Fen Bilimleri Dergisi, 12(4): 1188-1206. https://doi.org/10.17714/gumusfenbil.1110463
- Karacabey, E., Aktaş, T., Taşeri, L., ve Seçkin, G. U. (2020). Sultani çekirdeksiz üzüm çeşidinde farklı kurutma yöntemlerinin kurutma kinetiği, enerji tüketimi ve ürün kalitesi açısından incelenmesi. Tekirdağ Ziraat Fakültesi Dergisi, 17(1): 53-65.
- Kars, N., ve Ekberli, İ. (2021). Soya bitkisinin verim parametreleri ile bazı kimyasal toprak özellikleri arasındaki pedotransfer modellerin uygulanabilirliği. Tarım Makinaları Bilimi Dergisi, 18(3): 494-507.
- Kavheci, K. (1998). Çeltiğin yığın halinde kuruma davranışı. (Doktora Tezi) Trakya Üniversitesi, Fen Bilimleri Enstitüsü, Makine Mühendisliği Anabilim Dalı, Edirne.
- Khanlari, A., Güler, H. O., Tuncer, A. D., Sirin, C., Bilge, Y. C., Yılmaz, Y., and Güngor, A. (2020). Experimental and numerical study of the effect of integrating plusshaped perforated baffles to solar air collector in drying application. Renewable Energy, 145: 1677–1692.
- Köklü, N., Büyüköztürk, Ş., ve Çokluk-Bökeoğlu, Ö. (2006). Sosyal Bilimler İçin İstatistik. Pegem Yayıncılık, Ankara.
- Korkmaz, C. (2007). Mısırın kuruma davranışının deneysel olarak belirlenmesi ve değişik teori modellerle simülasyonu. (Yüksek Lisans Tezi), Trakya Üniversitesi Fen Bilimleri Enstitüsü, Makine Mühendisliği Anabilim Dalı, Edirne.
- Masters, T. (1993). Practical Neural Network Recipes in C++. Elsevier Inc. : Academic Press.
- Öğündür, G. (2019). Overfitting, underfitting and bias-variance contradiction. https://www.medium.com (Erişim Tarihi: 18.04.2023).
- Rachmatullah, M. I. C., Santoso, J. and Surendro, K. (2020). A Novel Approach in Determining Neural Networks Architecture to Classify Data With Large Number of Attributes. Ieee Access, 8, 204728-204743. https://doi.org/10.1109/ACCESS.2020.3036853
- Saplıoğlu Akademi. (2020). Matlab ile Anfis Uygulaması. https://www.youtube.com/watch?v=syiqS2o7sKc (Erişim Tarihi: 20.04.2023).
- Sartori, M. A., and Antsaklis, P. J. (1991). A simple method to derive bounds on the size and to train multilayer neural networks. IEEE Transactions on Neural Networks, 2(4): 467-471. https://doi.org/10.1109/72.88168
- Sheela, K.G. and S.N. Deepa. (2013). Review on Methods to Fix Number of Hidden Neurons in Neural Networks. Mathematical Problems in Engineering, p. 425740.
- Shen, L., Zhu, Y., Liu, C., Wang, W., Liu, H., Kamruzzaman, and Zheng, X. (2020). Modelling of moving drying process and analysis of drying characteristics for germinated brown rice under continuous microwave drying. Biosystems Engineering, 195: 64-88.
- Taheri, S., Brodie, G. and Gupta, D. (2021). Optimised ANN and SVR models for online prediction of moisture content and temperature of lentil seeds in a microwave fluidised bed dryer. Computers and Electronics in Agriculture, 182: 106003. https://doi.org/10.1016/j.compag.2021.106003
- The Data Scientist (2024). Comparing Significance Level, Confidence Level, And Confidence Interval, https://thedatascientist.com/comparing-significance-level-confidence-level-and-confidence-interval/ (Accessed Date: 10.02.2024).
- Tobon-Mejia, D. A., Medjaher, K., Zerhouni, N. and Tripot, G. (2012). A data-driven failure prognostics method based on mixture of gaussians hidden Markov Models. IEEE Transactions on Reliability, 61(2): 491-503. https://doi.org/10.1109/TR.2012.2194177
- Venkatasubramanian, V., Rengaswamy, R., Kavuri, S. N., and Yin, K. (2003). A review of process fault detection and diagnosis: Part III: Process history based methods. Computers & Chemical Engineering, 27(3): 327-346. https://doi.org/10.1016/S0098-1354(02)00162-X
Modelleme ve Tahmin Amaçlı Veri Ön İşleme Yöntemlerinin Ürün Kurutma Örneği ile Açıklanması
Yıl 2024,
Cilt: 21 Sayı: 2, 482 - 500, 13.03.2024
Cem Korkmaz
,
İlyas Kacar
Öz
Regresyon geleneksel bir veri işleme yöntemi olsa da, makine ve derin öğrenme yöntemleri hem modelleme hem de tahmin için son yıllarda literatürde yaygın olarak kullanılmaktadır. Ancak, bu yöntemlerin verimli bir şekilde kullanılabilmesi için veri türünün anlaşılmasına yönelik bir ön değerlendirme yapılması önem arz etmektedir. Bu nedenle, bu çalışmada ön değerlendirme prosedürleri açıklanmıştır. Kurutma deney düzeneğinde kullanılan ölçüm cihazları ve sensörlerindeki ölçüm belirsizliklerini belirlemek için deneysel belirsizlik analizi yapılmıştır. Veri setindeki değişkenler arasındaki anlamlı ve anlamsız ilişkiler Pearson korelasyon matrisi ile belirlenmiştir. Kurutma verilerindeki zaman serisi gecikmesini belirlemek için otokorelasyon ve kısmi otokorelasyon fonksiyonları kullanılmış ve 5 gecikmeli bir AR(5) serisi belirlenmiştir. Kurutma sürecinin doğal davranışından kaynaklanan ham verilerdeki tepe ve dip noktalar nedeniyle verilerin değişken varyansa sahip olduğu görülmüştür. Ham verileri bozmadan gerçekleştirilen normalizasyon ön değerlendirme işlemi ile modelleme başarısı elde edilmiştir. Böylece geleneksel modellere göre daha iyi modeller elde edilebileceği gösterilmiştir. Makine öğrenmesi yönteminde gizli katman ve nöron sayısını belirlemek için kullanılan deneme yanılma yöntemindeki, gereksiz zaman ve hesaplama maliyetlerinden kaçınmak için, literatürde önerilen çeşitli formüller karşılaştırılmıştır. Korelasyon katsayısının, modelin iyiliğini belirlemede tek başına yeterli olmadığı gösterilmiştir. Bu çalışmadaki verilerin modellenmesinde, NARX modelinin ANFIS ve LSTM modellerine göre daha hızlı ve daha az hata ile istenen değere yakınsadığı görülmüştür. Döner tamburlu bir kurutucunun simülasyonunda, ağ bağımsızlık analizi ile optimum ağ elemanı sayısı 1137 olarak belirlenmiştir. Bu sayede gereksiz aşırı hesaplamaların da önüne geçilmiştir. Elbette tüm bu yöntemler istatistik biliminde zaten mevcuttur. Ancak bu çalışmada özellikle bu alanın dışında olan genç araştırmacıların hız kazanması ve kolay kavrayabilmesi için modelleme ve tahmin amaçlı kullanılacak yöntemler, özenle seçilmiş ve örneklerle açıklanmıştır.
Destekleyen Kurum
Bu araştırma, kamu, ticari veya kâr amacı gütmeyen sektörlerdeki finansman kuruluşlarından herhangi bir özel hibe almamıştır.
Teşekkür
Bu çalışmanın inceleme ve değerlendirme aşamasında yapmış oldukları değerli katkılardan dolayı; editör, hakem ve emeği geçenlere içten teşekkür ederim.
Kaynakça
- Agrotime (2023). Organomineral toprak düzenleyici; Agrotime Gold Sulphur gübre. https://www.agrotimegubre.com.tr/-1.html (Erişim Tarihi: 08.02.2024)
- Altan, A. D., Diken, B. and Kayişoğlu, B. (2021). Prediction of Photovoltaic Panel Power Outputs Using Time Series and Artificial Neural Network Methods. Tekirdağ Ziraat Fakültesi Dergisi, 18(3), 457-469.
- Amini, G., Salehi, F., and Rasouli, M. (2021). Drying kinetics of basil seed mucilage in an infrared dryer: Application of GA-ANN and ANFIS for the prediction of drying time and moisture ratio. Journal of Food Processing and Preservation, 45(3), e15258. https://doi.org/10.1111/jfpp.15258
- Amiroh, K., Rahmawati, D., and Wicaksono, A. Y. (2021). Intelligent System for Fall Prediction Based on Accelerometer and Gyroscope of Fatal Injury in Geriatric. Jurnal Nasional Teknik Elektro, 10(3): 155-159. https://doi.org.10.25077/jnte.v10n3.936.2021
- Aydın, A. (2016). Precision Feeding in Laying Hens by Sound Technology. Journal of Agricultural Machinery Science, 13(3): 134-142.
- Baran, M. F., Dalmış, İ. S. ve Kayışoğlu, B. (2015). Kanola Bitkisinin Parçalanmaya Yönelik Bazı Mekanik Özelliklerinin Belirlenmesi. Avrupa Bilim ve Teknoloji Dergisi, 2(5): 143-148.
- Bayhan, Y. (2021). İkinci ürün ayçiçeği üretiminde farklı toprak işleme ve doğrudan ekim yöntemlerinin enerji kullanım etkinliğinin karşılaştırılması. Tarım Makinaları Bilimi Dergisi, 13(2): 102-109.
- Beigi, M. and Torki, M. (2021). Experimental and ANN modeling study on microwave dried onion slices. Heat and Mass Transfer, 57: 787–796.
- Çelen, S. (2016). Mikrodalga bantlı kurutucunun gıda kurutmada kullanılabilirliği ve modellenmesi. Tekirdağ Ziraat Fakültesi Dergisi, 13(4): 71-83.
- Dash, S. and Venkatasubramanian, V. (2000). Challenges in the industrial applications of fault diagnostic systems. Computers & Chemical Engineering, 24(2-7): 785-791.
- Datatab (2024). Confidence Interval [Simply explained]. https://www.youtube.com/watch?v=ENnlSlvQHO0 (Accessed Date: 10.02.2024).
- Dong, L., Wang, J., Tseng, M.-L., Yang, Z., Ma, B. and Li, L.-L. (2020). Gyro Motor State Evaluation and Prediction Using the Extended Hidden Markov Model. Symmetry, 12(11): 1750, 1-21. https://doi.org/10.3390/sym12111750
- Erenturk, S. and Erenturk, K. (2007). Comparison of genetic algorithm and neural network approaches for the drying process of carrot. Journal of Food Engineering, 78, 905-912.
- Evci, G., ve Ülger, P. (2006). Çeltiğin Makineyle Kurutulmasında, Hasat Nemi İle Kurutma Nemi Arasındaki İlişkinin, Maksimum Kırıksız Pirinç Randımanı Yönünden Belirlenmesi. Tarım Makinaları Bilimi Dergisi, 3(3), 253-258.
- Hacıhafızoğlu, O. (2004). Çeltiğin kuruma davranışının teorik olarak incelenmesi ve sonuçların elipsoid modele uygulanması. (Doktora Tezi), Trakya Üniversitesi, Fen Bilimleri Enstitüsü, Makine Mühendisliği Anabilim Dalı, Edirne.
- Heaton, J. (2008). Introduction to Neural Networks with Java. Heaton Research, Incorporated; 2nd edition, Washington.
- HosseinTabari, Kisi, O., Ezani, A., and Talaee, P. H. (2012). SVM, ANFIS, regression and climate based models for reference evapotranspiration modeling using limited climatic data in a semi-arid highland environment. Journal of Hydrology, 444-445: 78-89. doi:10.1016/j.jhydrol.2012.04.007
- Kacar, İ. (2023). Mekanik Tasarım ve Analizin Bilimsel Esasları. Akademisyen Kitabevi, Ankara, Birinci baskı, 36-40.
- Kacar, İ., ve Korkmaz, C. (2021). Döner tamburlu kurutucularda gübre kurutma simülasyonu. Tarım Makinaları Bilimi Dergisi, 17(3): 94-100.
- Kacar, İ., ve Korkmaz, C. (2022a). N25P5K5 türü yeni nesil bir bitki besininin kuruma kinetiğinin regresyon ve makine öğrenme yöntemleri ile belirlenmesi, Çukurova Üniversitesi Mühendislik Fakültesi Dergisi, 37(4): 989-1004. https://doi.org/10.21605/cukurovaumfd.1230921
- Kacar, İ., ve Korkmaz, C. (2022b). Çok katmanlı algılayıcı ağı, uzun kısa süreli bellek ağı ve regresyon yöntemleri ile tarımsal kurutma tahmini Gümüşhane Üniversitesi Fen Bilimleri Dergisi, 12(4): 1188-1206. https://doi.org/10.17714/gumusfenbil.1110463
- Karacabey, E., Aktaş, T., Taşeri, L., ve Seçkin, G. U. (2020). Sultani çekirdeksiz üzüm çeşidinde farklı kurutma yöntemlerinin kurutma kinetiği, enerji tüketimi ve ürün kalitesi açısından incelenmesi. Tekirdağ Ziraat Fakültesi Dergisi, 17(1): 53-65.
- Kars, N., ve Ekberli, İ. (2021). Soya bitkisinin verim parametreleri ile bazı kimyasal toprak özellikleri arasındaki pedotransfer modellerin uygulanabilirliği. Tarım Makinaları Bilimi Dergisi, 18(3): 494-507.
- Kavheci, K. (1998). Çeltiğin yığın halinde kuruma davranışı. (Doktora Tezi) Trakya Üniversitesi, Fen Bilimleri Enstitüsü, Makine Mühendisliği Anabilim Dalı, Edirne.
- Khanlari, A., Güler, H. O., Tuncer, A. D., Sirin, C., Bilge, Y. C., Yılmaz, Y., and Güngor, A. (2020). Experimental and numerical study of the effect of integrating plusshaped perforated baffles to solar air collector in drying application. Renewable Energy, 145: 1677–1692.
- Köklü, N., Büyüköztürk, Ş., ve Çokluk-Bökeoğlu, Ö. (2006). Sosyal Bilimler İçin İstatistik. Pegem Yayıncılık, Ankara.
- Korkmaz, C. (2007). Mısırın kuruma davranışının deneysel olarak belirlenmesi ve değişik teori modellerle simülasyonu. (Yüksek Lisans Tezi), Trakya Üniversitesi Fen Bilimleri Enstitüsü, Makine Mühendisliği Anabilim Dalı, Edirne.
- Masters, T. (1993). Practical Neural Network Recipes in C++. Elsevier Inc. : Academic Press.
- Öğündür, G. (2019). Overfitting, underfitting and bias-variance contradiction. https://www.medium.com (Erişim Tarihi: 18.04.2023).
- Rachmatullah, M. I. C., Santoso, J. and Surendro, K. (2020). A Novel Approach in Determining Neural Networks Architecture to Classify Data With Large Number of Attributes. Ieee Access, 8, 204728-204743. https://doi.org/10.1109/ACCESS.2020.3036853
- Saplıoğlu Akademi. (2020). Matlab ile Anfis Uygulaması. https://www.youtube.com/watch?v=syiqS2o7sKc (Erişim Tarihi: 20.04.2023).
- Sartori, M. A., and Antsaklis, P. J. (1991). A simple method to derive bounds on the size and to train multilayer neural networks. IEEE Transactions on Neural Networks, 2(4): 467-471. https://doi.org/10.1109/72.88168
- Sheela, K.G. and S.N. Deepa. (2013). Review on Methods to Fix Number of Hidden Neurons in Neural Networks. Mathematical Problems in Engineering, p. 425740.
- Shen, L., Zhu, Y., Liu, C., Wang, W., Liu, H., Kamruzzaman, and Zheng, X. (2020). Modelling of moving drying process and analysis of drying characteristics for germinated brown rice under continuous microwave drying. Biosystems Engineering, 195: 64-88.
- Taheri, S., Brodie, G. and Gupta, D. (2021). Optimised ANN and SVR models for online prediction of moisture content and temperature of lentil seeds in a microwave fluidised bed dryer. Computers and Electronics in Agriculture, 182: 106003. https://doi.org/10.1016/j.compag.2021.106003
- The Data Scientist (2024). Comparing Significance Level, Confidence Level, And Confidence Interval, https://thedatascientist.com/comparing-significance-level-confidence-level-and-confidence-interval/ (Accessed Date: 10.02.2024).
- Tobon-Mejia, D. A., Medjaher, K., Zerhouni, N. and Tripot, G. (2012). A data-driven failure prognostics method based on mixture of gaussians hidden Markov Models. IEEE Transactions on Reliability, 61(2): 491-503. https://doi.org/10.1109/TR.2012.2194177
- Venkatasubramanian, V., Rengaswamy, R., Kavuri, S. N., and Yin, K. (2003). A review of process fault detection and diagnosis: Part III: Process history based methods. Computers & Chemical Engineering, 27(3): 327-346. https://doi.org/10.1016/S0098-1354(02)00162-X