İkili Kümeleme Algoritmalarının Parametre Seçimi için Çok Ölçütlü Karar Verme Yöntemi
Yıl 2022,
Cilt: 3 Sayı: 2, 83 - 101, 25.11.2022
Ahmet Kocatürk
,
Bülent Altunkaynak
Öz
İkili kümeleme yöntemlerinde, veri matrisinde benzer satır ve sütunlar, alt kümelerine göre eş zamanlı olarak gruplandırılır. İkili kümeleme algoritmalarında kullanılan parametreler, elde edilecek ikili kümelerin belirlenmesinde oldukça önemlidir. Çünkü ikili kümeleme algoritmaları parametre değerlerine göre farklı ikili kümeler elde eder. Literatürde anlamlı ve etkili ikili kümeler elde etmek için birçok değerlendirme ölçütü bulunmaktadır. İkili kümelerin birden fazla ölçü ile değerlendirilmesi çok amaçlı bir optimizasyon problemini ortaya çıkarmaktadır. Çok amaçlı problemlerde, bir problemi optimal yapan çözüm diğer problemler için optimal değildir. Bu yüzden ideal tek bir çözüm yerine alternatif çözümler (Pareto optimal çözüm) elde edilir. Bu çalışmada, ikili kümeleme algoritmasının ayarlanabilir parametrelerini belirlemek için Pareto optimal çözüm elde edilmiştir. Pareto optimal çözüm elde etmek için en etkili yöntem Baskın Sıralı Genetik AlgoritmaII (NSGA-II)’dir. NSGA-II algoritması ile elde edilen çözüm kümesinden tek bir uzlaşık çözüm seçmek için sistematik ve basit hesaplama sürecine sahip çok ölçütlü karar verme yöntemlerinden biri olan İdeal Çözüme Benzerlik Bakımından Sıralama Performansı Tekniği (TOPSIS) algoritması kullanılmıştır. Bu çalışmada ikili kümeleme algoritmasının ayarlanabilir parametrelerini belirlemek için yapay ve gerçek veri matrisleri kullanılmış ve değerlendirme ölçüleri için R fonksiyonları oluşturulmuştur. Her bir değerlendirme ölçüsü ayrı ayrı dikkate alınarak ikili kümeleme algoritmasının ayarlanabilir parametreleri belirlenmiştir. Ayrıca değerlendirme ölçüleri eşit önem derecesine göre çok ölçütlü karar yöntemi ile elde edilerek ikili kümeleme algoritmalarının ayarlanabilir parametreleri karşılaştırılmıştır. Her bir değerlendirme ölçüsüne göre farklı sonuçlar elde edildiği için çok ölçütlü karar verilmesi daha anlamlı ikili kümeler elde edilmesini sağlamıştır
Kaynakça
- [1] Mirkin, B. (1998). Mathematical classification and clustering: From how to what and why. Classification, Data
analysis, and Data Highways, 172-181
[2] Wang, B., Miao, Y., Zhao, H., Jin, J., & Chen, Y. (2016). A biclustering-based method for market segmentation
using customer pain points. Engineering Applications of Artificial Intelligence, 47, 101-109.
- [3] Dhillon, I. S. (2001). Co-clustering documents and words using bipartite spectral graph partitioning. In
Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, 269-
274.
- [4] Busygin, S., Prokopyev, O., & Pardalos, P. M. (2008). Biclustering in data mining. Computers & Operations
Research, 35(9), 2964-2987.
- [5] Cheng, Y., & Church, G. M. (2000). Biclustering of expression data. “International Conference on Intelligent
Systems for Molecular Biology” kongresinde sunulan bildiri, UC San Diego, California, USA.
- [6] Lazzeroni, L., & Owen, A. (2002). Plaid models for gene expression data. Statistica Sinica, 61-86.
- [7] Bergmann, S., Ihmels, J., & Barkai, N. (2003). Iterative signature algorithm for the analysis of large-scale gene
expression data. Physical Review E, 67(3), 031902.
- [8] Ben-Dor, A., Chor, B., Karp, R., & Yakhini, Z. (2003). Discovering local structure in gene expression data: the
order-preserving submatrix problem. Journal of Computational Biology, 10(3-4), 373-384.
- [9] Prelić, A., Bleuler, S., Zimmermann, P., Wille, A., Bühlmann, P., Gruissem, W., Zitzler, E. (2006). A systematic
comparison and evaluation of biclustering methods for gene expression data. Bioinformatics, 22(9), 1122-1129.
[10] Li, G., Ma, Q., Tang, H., Paterson, A. H., & Xu, Y. (2009). QUBIC: a qualitative biclustering algorithm for
analyses of gene expression data. Nucleic Acids Research, 37(15), 101.
- [11] Hochreiter, S., Bodenhofer, U., Heusel, M., Mayr, A., Mitterecker, A., Kasim, A., Talloen, W. (2010). FABIA:
factor analysis for bicluster acquisition. Bioinformatics, 26(12), 1520-1527.
- [12] Chekouo, T., & Murua, A. (2015). The penalized biclustering model and related algorithms. Journal of Applied
Statistics, 42(6), 1255-1277.
- [13] Biswal, B. S., Mohapatra, A., & Vipsita, S. (2019). Ensemble Neighborhood Search (ENS) for biclustering of
gene expression microarray data and single cell RNA sequencing data. Journal of King Saud University-Computer
and Information Sciences, 5(2), 105-112.
- [14] Chowdhury, H. A., Ahmed, H. A., Bhattacharyya, D. K., & Kalita, J. K. (2020). NCBI: A Novel Correlation
Based Imputing Technique Using Biclustering. Computational Intelligence in Pattern Recognition, 1, 509-519.
- [15] Seridi, K., Jourdan, L., & Talbi, E.-G. (2012). Hybrid metaheuristic for multi-objective biclustering in microarray
data. “2012 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB)”
kongresinde sunulan bildiri, San Diego, California, USA.
- [16] Al-Akwaa, F. M., Ali, M. H., & Kadah, Y. M. (2009). Bicat_plus: An automatic comparative tool for bi/clustering
of gene expression data obtained using microarrays. “2009 National Radio Science Conference” kongresinde sunulan
bildiri.
- [17] Chia, B. K. H., & Karuturi, R. K. M. (2010). Differential co-expression framework to quantify goodness of
biclusters and compare biclustering algorithms. Algorithms for Molecular Biology, 5(1), 23.
- [18] Karim, M. B., Kanaya, S., & Altaf-Ul-Amin, M. (2019). Implementation of BiClusO and its comparison with
other biclustering algorithms. Applied Network Science, 4(1), 1-15.
- [19] Liu, X., & Wang, L. (2006). Computing the maximum similarity bi-clusters of gene expression data.
Bioinformatics, 23(1), 50-56.
- [20] Padilha, V. A., & Campello, R. J. (2017). A systematic comparative evaluation of biclustering techniques.
BioMed Central Bioinformatics, 18(1), 55.
- [21] Seridi, K., Jourdan, L., & Talbi, E.-G. (2015). Using multiobjective optimization for biclustering microarray data.
Applied Soft Computing, 33, 239-249.
- [22] Goldberg, D. E., & Holland, J. H. (1988). Genetic algorithms and machine learning. Machine Learning, 3(2), 95-
99.
- [23] Kirkpatrick, S., Gelatt, C. D., & Vecchi, M. P. (1983). Optimization by simulated annealing. Science, 220(4598),
671-680.
- [24] Alikar, N., Mousavi, S. M., Ghazilla, R. A. R., Tavana, M., & Olugu, E. U. (2017). Application of the NSGA-II
algorithm to a multi-period inventory-redundancy allocation problem in a series-parallel system. Reliability
Engineering & System Safety, 160, 1-10.
- [25] Vo-Duy, T., Duong-Gia, D., Ho-Huu, V., Vu-Do, H., & Nguyen-Thoi, T. (2017). Multi-objective optimization
of laminated composite beam structures using NSGA-II algorithm. Composite Structures, 168, 498-509.
- [26] Wang, B., Liang, Y., Zheng, T., Yuan, M., & Zhang, H. (2018). Multi-objective site selection optimization of the
gas-gathering station using NSGA-II. Process Safety and Environmental Protection, 119, 350-359.
- [27] Wang, S., Ma, S., & Duan, W. (2018). Seakeeping optimization of trimaran outrigger layout based on NSGA-II.
Applied Ocean Research, 78, 110-122.
- [28] Yang, Y., Cao, L., Wang, C., Zhou, Q., & Jiang, P. (2018). Multi-objective process parameters optimization of
hot-wire laser welding using ensemble of metamodels and NSGA-II. Robotics and Computer-Integrated
Manufacturing, 53, 141-152.
- [29] Deb, K., Pratap, A., Agarwal, S., & Meyarivan, T. (2002). A fast and elitist multiobjective genetic algorithm:
NSGA-II. IEEE Transactions on Evolutionary Computation, 6(2), 182-197.
- [30] Türkşen, Ö. (2011). Çok Yanıtlı Yüzey Problemlerinin Çözümüne Bulanık ve Sezgisel Yaklaşım. Doktora
Tezi. Ankara Üniversitesi Fen bilimleri Enstitüsü. Ankara. 126.
- [31] Hwang, C., & Yoon, K. (1981). Multiple decision attribute making: Methods and applications. New York:
Springer-Verlag, 58-191.
- [32] Pamucar D. & Cirovic G. (2015). The selection of transport and handling resources in logistics centers using
multi-attributive border approximation area comparison (mabac). Expert Systems with Applications, 42(6), 3016-
3028.
- [33] Liu P., Li H., Wang P., & Liu J. (2016). Electre method and its application in multiple attribute decision making
based on ins. Journal of Shandong University of Finance and Economics, 28(2), 80-87.
- [34] Pontes, B., Girldez, R., & Aguilar-Ruiz, J. S. (2015). Quality measures for gene expression biclusters. Plos One,
10(3), 0115497.
- [35] Yip, K. Y., Cheung, D. W., & Ng, M. K. (2004). Harp: A practical projected clustering algorithm. IEEE
Transactions on Knowledge and Data Engineering, 16(11), 1387-1397.
- [36] Lashkargir, M., Monadjemi, S. A., & Dastjerdi, A. B. (2009). A new biclustering method for gene expersion data
based on adaptive multi-objective particle swarm optimization. In 2009 Second International Conference on
Computer and Electrical Engineering, 1, 559-563.
- [37] Liu, J., Li, Z., Hu, X., & Chen, Y. (2009, April). Biclustering of microarray data with MOSPO based on crowding
distance. In BMC bioinformatics, 10(4), 1-10.
- [38] Mitra, S., & Banka, H. (2006). Multi-objective evolutionary biclustering of gene expression data. Pattern
Recognition, 39(12), 2464-2477.
- [39] Talbi, E.-G. (2009). Metaheuristics: from design to implementation (74). New Jersey: John Wiley & Sons, 34-
48.
- [40] Türkşen, Ö., & Akgün, F. (2018). Genetik-Simpleks hibrit algoritması ile doğrusal olmayan regresyon model
parametrelerinin nokta tahmini. İstatistikçiler Dergisi: İstatistik ve Aktüerya, 11(2), 81-92.
- [41] Dale, J., Zhao, J., & Obafemi-Ajayi, T. (2019). Multi-objective optimization approach to find biclusters in gene
expression data. In 2019 IEEE Conference on Computational Intelligence in Bioinformatics and Computational
Biology (CIBCB), 1-8