Research Article
BibTex RIS Cite

A NEW APPROACH TO OPTIMUM CLUSTERING IN MODEL-BASED CLUSTER ANALYSIS

Year 2020, Volume: 8 Issue: 5, 218 - 229, 29.12.2020
https://doi.org/10.21923/jesd.828051

Abstract

Determining the number of components in finite mixture models is an important problem, and normal mixture models are frequently used in finite mixture distributions. In this study, In this study, a new clustering method is proposed for modeling multivariate data set with TOPSIS method. In the proposed method, each variable of multivariate data is modeled with univariate normal mixture distributions and a decision matrix is created by using the information criterion values obtained according to the number of components. The number of components in the variables was determined with TOPSIS method using the decision matrix. Homogeneous variables without components are eliminated and the size is reduced, and alternative component numbers are calculated for mixture models that can be formed according to the number of components in heterogeneous variables. Among the alternative number of components, the most suitable component number and suitable mixture model were determined by TOPSIS method. Thus, in multivariate data, number of clusters were estimated with dimension reduction and variable selection. The success of the proposed approach has been tested on the real dataset and the number of clusters of the data set has been determined correctly. In addition, this approach increased the classification success of the observations.

References

  • Acer, A., Kalender, S., 2020. Antrepoların Performansının Entropi ve TOPSIS Yöntemiyle Değerlendirilmesi. Sosyal Bilimler Dergisi/Journal of Social Sciences, (65).
  • Akaike, H., 1974. A new look at the statistical model identification. IEEE Transactions on Automatic Control 19 (6): 716–723.
  • Akalp, G., Özok, A., 2017. Ergonomik Risklerin Bulanik Mantik Yöntemi Ile Modellenmesi Ve Bir Uygulama, Mühendislik Bilimleri Ve Tasarim Dergisi, 5 (0), 69-79
  • Akogul, S., 2018. Çok Değişkenli Verilerin Modele Dayalı Kümeleme Analizinde Kümeleme Etkinliğinin Arttırılması”, Doktora Tezi, Selçuk Üniversitesi Fen Bilimleri Enstitüsü, Konya.
  • Akogul, S., Erisoglu, M., 2016. A comparison of information criteria in clustering based on mixture of multivariate normal distributions. Mathematical and Computational Applications, 21(3), 34.
  • Akogul, S., Erisoglu, M., 2017. An approach for determining the number of clusters in a model-based cluster analysis. Entropy, 19(9), 452.
  • Andriyanov, N., Tashlinsky, A., Dementiev, V., 2020. Detailed Clustering Based on Gaussian Mixture Models. In Proceedings of SAI Intelligent Systems Conference (pp. 437-448). Springer, Cham.
  • Binder, D. A., 1978. Bayesian cluster analysis. Biometrika, 65(1), 31-38.
  • Bozdogan, H., 1994. Mixture-model cluster analysis using model selection criteria and a new informational measure of complexity, Proceedings of the first US/Japan conference on the frontiers of statistical modeling: An informational approach, 69-113.
  • Burak, E., Boran, F., Mustafa, K., 2015. Sezgisel Bulanik TOPSIS Yöntemi Kullanilarak Ergonomik Ürün Konsept Seçimi. Mühendislik Bilimleri ve Tasarım Dergisi, 3(3), 433-440.
  • Çetin, M. H., Alvalı, G. T., 2020. Yük Vagonu Bojisi Tasarımında Çok Kriterli Karar Verme Teknikleri İle Malzeme Seçimi, Mühendislik Bilimleri ve Tasarım Dergisi, 8(1), 91-104.
  • Day, N. E., 1969. Estimating the components of a mixture of normal distributions. Biometrika, 56(3), 463-474.
  • Dempster, A. P., Laird, N. M., Rubin, D. B., 1977. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society: Series B (Methodological), 39(1), 1-22.
  • Ece, N., 2019. Holding Şirketlerinin Finansal Performans Sıralamasının Entropi Tabanlı TOPSIS Yöntemleri İle İncelenmesi. Finans Ekonomi ve Sosyal Araştırmalar Dergisi (FESA), 4(1), 63-73.
  • Fisher, R. A., 1936. The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7(2): 179-188.
  • Fop, M., Murphy, T. B., 2018. Variable selection methods for model-based clustering. Statistics Surveys, 12, 18-65.
  • Fraley, C. and Raftery, A. E., 1998. How Many Clusters? Which Clustering Method? Answers via Model-Based Cluster Analysis. The Computer Journal, 41, 578-588.
  • Fraley, C., Raftery, A. E., 2002. Model-based clustering, discriminant analysis, and density estimation, Journal of the American statistical Association, 97 (458), 611-631.
  • Galimberti, G., Soffritti, G., 2007. Model-based methods to identify multiple cluster structures in a data set. Computational statistics & data analysis, 52(1), 520-536.
  • Gogebakan, M., 2017. Karma Dağılım Modelleri Kullanılarak Çok Değişkenli Veride Grup Yapılarının Belirlenmesi, Ayrıştırılması, Kümelenmesi ve Sınıflandırılması, Doktora Tezi, Erciyes Üniversitesi Fen Bilimleri Enstitüsü, Kayseri.
  • Gogebakan, M., Erol, H., 2019. Mixture Model Clustering Using Variable Data Segmentation and Model Selection: A Case Study of Genetic Algorithm, Mathematics Letters. Vol. 5, No. 2, 2019, pp. 23-32
  • Gogebakan, M., Erol, H., 2019. Normal Mixture Model-Based Clustering of Data Using Genetic Algorithm. In The International Conference on Artificial Intelligence and Applied Mathematics in Engineering (pp. 539-543). Springer, Cham.
  • Gögebakan, M., Servi, T., 2019. Genetik Algoritma Kullanılarak Verilerin Karma Normal Modele Dayalı Kümelenmesi. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi, 35(3), 12-23.
  • Hurvich, C. M., Tsai, C. L., 1989. Regression and time series model selection in small samples. Biometrika, 76(2), 297-307.
  • Hwang, C. L., Yoon, K., 1981. Methods for multiple attribute decision making. In Multiple attribute decision making (pp. 58-191). Springer, Berlin, Heidelberg.
  • Ishizaka, A., Nemery, P., 2013. Multi-criteria decision analysis: methods and software, John Wiley & Sons, p.
  • Khan, B. M., Bilal, R., Young, R., 2018. Fuzzy-TOPSIS based cluster head selection in mobile wireless sensor networks. Journal of Electrical Systems and Information Technology, 5(3), 928-943.
  • McLachlan, G. J., Chang, S. U., 2004. Mixture Modelling for Cluster Analysis. Statistical Methods in Medical Research 13, 347-361.
  • McLachlan, G., Peel, D., 2004. Finite mixture models, John Wiley & Sons.
  • Mirzal, A., 2020. Statistical Analysis of Microarray Data Clustering using NMF, Spectral Clustering, Kmeans, and GMM. IEEE/ACM Transactions on Computational Biology and Bioinformatics.
  • Nguyen, H. D., McLachlan, G. J., 2015. Maximum likelihood estimation of Gaussian mixture models without matrix operations. Advances in Data Analysis and Classification, 9(4), 371-394.
  • Oliveira-Brochado, A., Martins, F. V., 2005. Assessing the number of components in mixture models: a review, Universidade do Porto, Faculdade de Economia do Porto.
  • Özgüner, Z., 2020. Dış Kaynak Kullanımı Kapsamında Entegre Entropi-TOPSIS Yöntemleri ile Tedarikçi Seçimi Probleminin Çözümlenmesi. İşletme Araştırmaları Dergisi, 12(2), 1109-1120.
  • Pearson, K., 1894. Contributions to the mathematical theory of evolution. Philosophical Transactions of the Royal Society of London. A, 185, 71-110.
  • Perçin, S., Sönmez, Ö., 2018. Bütünleşik Entropi Ağirlik Ve TOPSIS Yöntemleri Kullanilarak Türk Sigorta Şirketlerinin Performansinin Ölçülmesi. Uluslararası İktisadi ve İdari İncelemeler Dergisi, (18. EYİ Özel Sayısı), 565-582.
  • Ridolfi, A., Idier, J., 2001. Penalized maximum likelihood estimation for univariate normal mixture distributions. In AIP Conference Proceedings (Vol. 568, No. 1, pp. 229-237). American Institute of Physics.
  • Schwarz, G., 1978. Estimating the dimension of a model, Ann. Statist. 6 pp. 461–464.
  • Seo, B., Kim, D., 2012. Root selection in normal mixture models. Computational Statistics & Data Analysis, 56(8), 2454-2470.
  • Servi, T., 2009. Çok değişkenli karma dağılım modeline dayalı kümeleme analizi, Doktora Tezi, Çukurova Üniversitesi Fen Bilimleri Enstitüsü, Adana
  • Soffritti, G., 2003. Identifying multiple cluster structures in a data matrix. Communications in Statistics-Simulation and Computation, 32(4), 1151-1177.
  • Şahin, Y., Supçiller, A., 2015. Tedarikçi seçimi için bir karar destek sistemi. Mühendislik Bilimleri ve Tasarım Dergisi, 3(2), 91-104.
  • Wang, T. C., Lee, H. D., 2009. Developing a fuzzy TOPSIS approach based on subjective weights and objective weights. Expert systems with applications, 36(5), 8980-8985.
  • Yıldırım, B. F., Önder, E., 2015. Çok kriterli karar verme yöntemleri. Bursa: Dora Basım-Yayın Dağıtım.

MODELE DAYALI KÜMELEME ANALİZİNDE OPTİMUM KÜMELEME İÇİN YENİ BİR YAKLAŞIM

Year 2020, Volume: 8 Issue: 5, 218 - 229, 29.12.2020
https://doi.org/10.21923/jesd.828051

Abstract

Sonlu karma modellerde bileşen (küme) sayısının belirlenmesi önemli bir problem olup normal karma modeller, sonlu karma dağılımlarda sıklıkla kullanılmaktadır. Bu çalışmada, çok kriterli karar verme yöntemlerinden biri olan TOPSIS yöntemi ile çok değişkenli veri setinin modellenmesinde yeni bir kümeleme yöntemi önerilmiştir. Önerilen yöntemde, çok değişkenli verinin her bir değişkeni tek değişkenli normal karma dağılımlarla modellenip, bileşen sayısına göre elde edilen bilgi kriteri değerleri kullanılarak bir karar matrisi oluşturulmuştur. Karar matrisi kullanılarak TOPSIS yöntemi ile değişkenlerdeki bileşen sayısı belirlenmiştir. Bileşen bulunmayan homojen değişkenler elenerek boyut indirgenmiş olup heterojen değişkenlerdeki bileşen sayılarına göre oluşabilecek karma modeller için alternatif bileşen sayıları hesaplanmıştır. Alternatif bileşen sayıları içerisinden en uygun bileşen sayısı ve uygun karma model yine TOPSIS yöntemi ile belirlenmiştir. Böylece çok değişkenli veride boyut indirgeme ve değişken seçimi ile küme sayısı tahmini yapılmıştır. Önerilen yaklaşımın başarısı gerçek veri seti üzerinde test edilmiş olup veri setinin küme sayısı doğru olarak belirlenmiştir. Ayrıca bu yaklaşım, gözlemlerin sınıflandırma başarısını da arttırmıştır.

References

  • Acer, A., Kalender, S., 2020. Antrepoların Performansının Entropi ve TOPSIS Yöntemiyle Değerlendirilmesi. Sosyal Bilimler Dergisi/Journal of Social Sciences, (65).
  • Akaike, H., 1974. A new look at the statistical model identification. IEEE Transactions on Automatic Control 19 (6): 716–723.
  • Akalp, G., Özok, A., 2017. Ergonomik Risklerin Bulanik Mantik Yöntemi Ile Modellenmesi Ve Bir Uygulama, Mühendislik Bilimleri Ve Tasarim Dergisi, 5 (0), 69-79
  • Akogul, S., 2018. Çok Değişkenli Verilerin Modele Dayalı Kümeleme Analizinde Kümeleme Etkinliğinin Arttırılması”, Doktora Tezi, Selçuk Üniversitesi Fen Bilimleri Enstitüsü, Konya.
  • Akogul, S., Erisoglu, M., 2016. A comparison of information criteria in clustering based on mixture of multivariate normal distributions. Mathematical and Computational Applications, 21(3), 34.
  • Akogul, S., Erisoglu, M., 2017. An approach for determining the number of clusters in a model-based cluster analysis. Entropy, 19(9), 452.
  • Andriyanov, N., Tashlinsky, A., Dementiev, V., 2020. Detailed Clustering Based on Gaussian Mixture Models. In Proceedings of SAI Intelligent Systems Conference (pp. 437-448). Springer, Cham.
  • Binder, D. A., 1978. Bayesian cluster analysis. Biometrika, 65(1), 31-38.
  • Bozdogan, H., 1994. Mixture-model cluster analysis using model selection criteria and a new informational measure of complexity, Proceedings of the first US/Japan conference on the frontiers of statistical modeling: An informational approach, 69-113.
  • Burak, E., Boran, F., Mustafa, K., 2015. Sezgisel Bulanik TOPSIS Yöntemi Kullanilarak Ergonomik Ürün Konsept Seçimi. Mühendislik Bilimleri ve Tasarım Dergisi, 3(3), 433-440.
  • Çetin, M. H., Alvalı, G. T., 2020. Yük Vagonu Bojisi Tasarımında Çok Kriterli Karar Verme Teknikleri İle Malzeme Seçimi, Mühendislik Bilimleri ve Tasarım Dergisi, 8(1), 91-104.
  • Day, N. E., 1969. Estimating the components of a mixture of normal distributions. Biometrika, 56(3), 463-474.
  • Dempster, A. P., Laird, N. M., Rubin, D. B., 1977. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society: Series B (Methodological), 39(1), 1-22.
  • Ece, N., 2019. Holding Şirketlerinin Finansal Performans Sıralamasının Entropi Tabanlı TOPSIS Yöntemleri İle İncelenmesi. Finans Ekonomi ve Sosyal Araştırmalar Dergisi (FESA), 4(1), 63-73.
  • Fisher, R. A., 1936. The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7(2): 179-188.
  • Fop, M., Murphy, T. B., 2018. Variable selection methods for model-based clustering. Statistics Surveys, 12, 18-65.
  • Fraley, C. and Raftery, A. E., 1998. How Many Clusters? Which Clustering Method? Answers via Model-Based Cluster Analysis. The Computer Journal, 41, 578-588.
  • Fraley, C., Raftery, A. E., 2002. Model-based clustering, discriminant analysis, and density estimation, Journal of the American statistical Association, 97 (458), 611-631.
  • Galimberti, G., Soffritti, G., 2007. Model-based methods to identify multiple cluster structures in a data set. Computational statistics & data analysis, 52(1), 520-536.
  • Gogebakan, M., 2017. Karma Dağılım Modelleri Kullanılarak Çok Değişkenli Veride Grup Yapılarının Belirlenmesi, Ayrıştırılması, Kümelenmesi ve Sınıflandırılması, Doktora Tezi, Erciyes Üniversitesi Fen Bilimleri Enstitüsü, Kayseri.
  • Gogebakan, M., Erol, H., 2019. Mixture Model Clustering Using Variable Data Segmentation and Model Selection: A Case Study of Genetic Algorithm, Mathematics Letters. Vol. 5, No. 2, 2019, pp. 23-32
  • Gogebakan, M., Erol, H., 2019. Normal Mixture Model-Based Clustering of Data Using Genetic Algorithm. In The International Conference on Artificial Intelligence and Applied Mathematics in Engineering (pp. 539-543). Springer, Cham.
  • Gögebakan, M., Servi, T., 2019. Genetik Algoritma Kullanılarak Verilerin Karma Normal Modele Dayalı Kümelenmesi. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi, 35(3), 12-23.
  • Hurvich, C. M., Tsai, C. L., 1989. Regression and time series model selection in small samples. Biometrika, 76(2), 297-307.
  • Hwang, C. L., Yoon, K., 1981. Methods for multiple attribute decision making. In Multiple attribute decision making (pp. 58-191). Springer, Berlin, Heidelberg.
  • Ishizaka, A., Nemery, P., 2013. Multi-criteria decision analysis: methods and software, John Wiley & Sons, p.
  • Khan, B. M., Bilal, R., Young, R., 2018. Fuzzy-TOPSIS based cluster head selection in mobile wireless sensor networks. Journal of Electrical Systems and Information Technology, 5(3), 928-943.
  • McLachlan, G. J., Chang, S. U., 2004. Mixture Modelling for Cluster Analysis. Statistical Methods in Medical Research 13, 347-361.
  • McLachlan, G., Peel, D., 2004. Finite mixture models, John Wiley & Sons.
  • Mirzal, A., 2020. Statistical Analysis of Microarray Data Clustering using NMF, Spectral Clustering, Kmeans, and GMM. IEEE/ACM Transactions on Computational Biology and Bioinformatics.
  • Nguyen, H. D., McLachlan, G. J., 2015. Maximum likelihood estimation of Gaussian mixture models without matrix operations. Advances in Data Analysis and Classification, 9(4), 371-394.
  • Oliveira-Brochado, A., Martins, F. V., 2005. Assessing the number of components in mixture models: a review, Universidade do Porto, Faculdade de Economia do Porto.
  • Özgüner, Z., 2020. Dış Kaynak Kullanımı Kapsamında Entegre Entropi-TOPSIS Yöntemleri ile Tedarikçi Seçimi Probleminin Çözümlenmesi. İşletme Araştırmaları Dergisi, 12(2), 1109-1120.
  • Pearson, K., 1894. Contributions to the mathematical theory of evolution. Philosophical Transactions of the Royal Society of London. A, 185, 71-110.
  • Perçin, S., Sönmez, Ö., 2018. Bütünleşik Entropi Ağirlik Ve TOPSIS Yöntemleri Kullanilarak Türk Sigorta Şirketlerinin Performansinin Ölçülmesi. Uluslararası İktisadi ve İdari İncelemeler Dergisi, (18. EYİ Özel Sayısı), 565-582.
  • Ridolfi, A., Idier, J., 2001. Penalized maximum likelihood estimation for univariate normal mixture distributions. In AIP Conference Proceedings (Vol. 568, No. 1, pp. 229-237). American Institute of Physics.
  • Schwarz, G., 1978. Estimating the dimension of a model, Ann. Statist. 6 pp. 461–464.
  • Seo, B., Kim, D., 2012. Root selection in normal mixture models. Computational Statistics & Data Analysis, 56(8), 2454-2470.
  • Servi, T., 2009. Çok değişkenli karma dağılım modeline dayalı kümeleme analizi, Doktora Tezi, Çukurova Üniversitesi Fen Bilimleri Enstitüsü, Adana
  • Soffritti, G., 2003. Identifying multiple cluster structures in a data matrix. Communications in Statistics-Simulation and Computation, 32(4), 1151-1177.
  • Şahin, Y., Supçiller, A., 2015. Tedarikçi seçimi için bir karar destek sistemi. Mühendislik Bilimleri ve Tasarım Dergisi, 3(2), 91-104.
  • Wang, T. C., Lee, H. D., 2009. Developing a fuzzy TOPSIS approach based on subjective weights and objective weights. Expert systems with applications, 36(5), 8980-8985.
  • Yıldırım, B. F., Önder, E., 2015. Çok kriterli karar verme yöntemleri. Bursa: Dora Basım-Yayın Dağıtım.
There are 43 citations in total.

Details

Primary Language Turkish
Journal Section Research Articles
Authors

Serkan Akoğul 0000-0002-0346-4308

Maruf Gögebakan 0000-0003-0447-8311

Publication Date December 29, 2020
Submission Date November 19, 2020
Acceptance Date December 9, 2020
Published in Issue Year 2020 Volume: 8 Issue: 5

Cite

APA Akoğul, S., & Gögebakan, M. (2020). MODELE DAYALI KÜMELEME ANALİZİNDE OPTİMUM KÜMELEME İÇİN YENİ BİR YAKLAŞIM. Mühendislik Bilimleri Ve Tasarım Dergisi, 8(5), 218-229. https://doi.org/10.21923/jesd.828051