Araştırma Makalesi
BibTex RIS Kaynak Göster

METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ

Yıl 2015, Cilt: 30 Sayı: 3, 417 - 427, 30.09.2015
https://doi.org/10.17341/gummfd.84777

Öz

Metin sınıflandırma problemlerinde en büyük sorun, veri uzayının büyük boyutta olması ve başarı oranını düşürmesidir. Sezgisel arama algoritmaları literatürde pek çok alanda kapsamlı bir şekilde kullanılıyor olmalarına rağmen metin sınıflandırma alanında yaygın olarak kullanılmamaktadır. Bunun en önemli sebebi, bu algoritmaların özellik seçimi için kullanıldığında oldukça çok vakit ve hesaplama gücüne ihtiyaç duymalarıdır. Bu çalışmada bu algoritmaları metin sınıflandırmada kullanabilecek bir yöntem benimsenmiş ve popüler dört sezgisel arama algoritması (Genetik Arama, Parçacık Sürü Optimizasyon Arama, Evrimsel Arama, TABU Arama) bu amaçla test edilmiştir. Elde edilen sonuçlara göre, bahsi geçen algoritmalar özellik seçimi amaçlı kullanılarak metin sınıflandırma performansını artırmaktadırlar. Az da olsa TABU arama algoritması diğerlerine göre daha iyi sonuç vermiştir.

Kaynakça

  • Joachims, T., “A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization”, Proceedings of the Fourteenth International Conference on Machine Learning, San Francisco, CA, USA, 143–151, 1997.
  • Oğuzlar, A., ”Metin Madenciliği Nedir?”, Temel Metin Madenciliği, Bursa, Dora Basım, 2011.
  • Yang Y. ve Pedersen J. O., “A Comparative Study on Feature Selection in Text Categorization”, Proceedings of the Fourteenth International Conference on Machine Learning, San Francisco, CA, USA, 412–420, 1997.
  • Zheng Z., Wu X., ve Srihari R., “Feature Selection for Text Categorization on Imbalanced Data”, SIGKDD Explor Newsl, Cilt 6, No. 1, 80–89, Haziran 2004.
  • Karabulut M., “Fuzzy unordered rule induction algorithm in text categorization on top of geometric particle swarm optimization term selection”, Knowl.-Based Syst., Cilt 54, 288–297, Aralık 2013.
  • Uğuz H., “A two-stage feature selection method for text categorization by using information gain, principal component analysis and genetic algorithm”, Knowl.-Based Syst., Cilt 24, No. 7, 1024–1032, 2011.
  • Sebastiani F., “Machine Learning in Automated Text Categorization”, ACM Comput. Surv., Cilt 34, sayı 1, 1–47, Mar. 2002.
  • Lahtinen T., Automatic indexing: an approach using an index term corpus and combining linguistic and statistical methods, Tez, University of Helsinki, Helsinki, 2000.
  • Kök V., Kuloğlu N., “Sollama Esnasında Taşıt Ve Yol İle İlgili Faktörlerin Karar Ağacı Yöntemiyle İrdelenmesi”, Erciyes Üniversitesi Fen Bilim. Enstitüsü Derg., No. 21(1–2), 180–188, 2005.
  • Talbi E.G., “Metaheuristics: From Design to Implementation” Wiley Publishing, 2009.
  • Engelbrecht A. P., “Computational intelligence: an introduction”, 2nd ed. Chichester, England , Hoboken, NJ, John Wiley & Sons, 2007.
  • Kennedy J. ve Eberhart R., “Particle swarm optimization”, IEEE International Conference on Neural Networks, Cilt 4, 1942–1948, 1995.
  • Ortakcı Y. ve Göloğlu C., “Parçacık Sürü Optimizasyonu İle Küme Sayısının Belirlenmesi”, Akademik Bilişim, Uşak, 335–341, 2012.
  • Haupt R. L. ve Haupt S. E., Practical Genetic Algorithms. John Wiley & Sons, 2004.
  • Nabiyev V. V., Yapay zeka: insan-bilgisayar etkileşimi, Ankara, Seçkin Yayıncılık, 2012.
  • Czapiński M., “An effective Parallel Multistart Tabu Search for Quadratic Assignment Problem on CUDA platform”, J. Parallel Distrib. Comput., Cilt 73, No. 11, 1461–1468, Kasım 2013.
  • Sebastiani F., “Machine Learning in Automated Text Categorization”, ACM Comput Surv, Cilt 34, No. 1, 1–47, Mar. 2002.
  • Alpaydin E., Introduction to machine learning, 2nd ed. Cambridge, MIT Press, 2010.
  • Aggarwal C. C. ve Zhai C., “A Survey of Text Classification Algorithms”, Mining Text Data, Eds. Springer US, ss. 163–222, 2012.
  • Yang Y., “An Evaluation of Statistical Approaches to Text Categorization”, Inf Retr, Cilt 1, No. 1–2, ss. 69–90, May 1999.
  • “Machine Learning Project at the University of Waikato in New Zealand.” [Çevrimiçi]: http://www.cs.waikato.ac.nz/ml/. [Erişim: 24-Mart-2015].

PERFORMANCE ANALYSIS OF HEURISTIC SEARCH ALGORITHMS IN TEXT CLASSIFICATION

Yıl 2015, Cilt: 30 Sayı: 3, 417 - 427, 30.09.2015
https://doi.org/10.17341/gummfd.84777

Öz

One of the most important problems in text categorization tasks is that the data space is very high dimensional which significantly diminishes the classification performance. Although, heuristic search algorithms are broadly used in many fields in the literature, they are not widely used in text categorization field. One important reason behind this fact is that these algorithms require high computational power and time to process the data for attribute selection purpose. In this study, a method to utilize such algorithms as a part of text categorization task is adopted and four popular heuristic search algorithms (Genetic Algorithm, Particle Swarm Optimization, Evolutionary Search and TABU Search) are tested. Obtained results show that heuristic search algorithms can be used effectively to increase the classification performance. Also, TABU algorithm has shown a slight performance advantage over the others. 

Kaynakça

  • Joachims, T., “A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization”, Proceedings of the Fourteenth International Conference on Machine Learning, San Francisco, CA, USA, 143–151, 1997.
  • Oğuzlar, A., ”Metin Madenciliği Nedir?”, Temel Metin Madenciliği, Bursa, Dora Basım, 2011.
  • Yang Y. ve Pedersen J. O., “A Comparative Study on Feature Selection in Text Categorization”, Proceedings of the Fourteenth International Conference on Machine Learning, San Francisco, CA, USA, 412–420, 1997.
  • Zheng Z., Wu X., ve Srihari R., “Feature Selection for Text Categorization on Imbalanced Data”, SIGKDD Explor Newsl, Cilt 6, No. 1, 80–89, Haziran 2004.
  • Karabulut M., “Fuzzy unordered rule induction algorithm in text categorization on top of geometric particle swarm optimization term selection”, Knowl.-Based Syst., Cilt 54, 288–297, Aralık 2013.
  • Uğuz H., “A two-stage feature selection method for text categorization by using information gain, principal component analysis and genetic algorithm”, Knowl.-Based Syst., Cilt 24, No. 7, 1024–1032, 2011.
  • Sebastiani F., “Machine Learning in Automated Text Categorization”, ACM Comput. Surv., Cilt 34, sayı 1, 1–47, Mar. 2002.
  • Lahtinen T., Automatic indexing: an approach using an index term corpus and combining linguistic and statistical methods, Tez, University of Helsinki, Helsinki, 2000.
  • Kök V., Kuloğlu N., “Sollama Esnasında Taşıt Ve Yol İle İlgili Faktörlerin Karar Ağacı Yöntemiyle İrdelenmesi”, Erciyes Üniversitesi Fen Bilim. Enstitüsü Derg., No. 21(1–2), 180–188, 2005.
  • Talbi E.G., “Metaheuristics: From Design to Implementation” Wiley Publishing, 2009.
  • Engelbrecht A. P., “Computational intelligence: an introduction”, 2nd ed. Chichester, England , Hoboken, NJ, John Wiley & Sons, 2007.
  • Kennedy J. ve Eberhart R., “Particle swarm optimization”, IEEE International Conference on Neural Networks, Cilt 4, 1942–1948, 1995.
  • Ortakcı Y. ve Göloğlu C., “Parçacık Sürü Optimizasyonu İle Küme Sayısının Belirlenmesi”, Akademik Bilişim, Uşak, 335–341, 2012.
  • Haupt R. L. ve Haupt S. E., Practical Genetic Algorithms. John Wiley & Sons, 2004.
  • Nabiyev V. V., Yapay zeka: insan-bilgisayar etkileşimi, Ankara, Seçkin Yayıncılık, 2012.
  • Czapiński M., “An effective Parallel Multistart Tabu Search for Quadratic Assignment Problem on CUDA platform”, J. Parallel Distrib. Comput., Cilt 73, No. 11, 1461–1468, Kasım 2013.
  • Sebastiani F., “Machine Learning in Automated Text Categorization”, ACM Comput Surv, Cilt 34, No. 1, 1–47, Mar. 2002.
  • Alpaydin E., Introduction to machine learning, 2nd ed. Cambridge, MIT Press, 2010.
  • Aggarwal C. C. ve Zhai C., “A Survey of Text Classification Algorithms”, Mining Text Data, Eds. Springer US, ss. 163–222, 2012.
  • Yang Y., “An Evaluation of Statistical Approaches to Text Categorization”, Inf Retr, Cilt 1, No. 1–2, ss. 69–90, May 1999.
  • “Machine Learning Project at the University of Waikato in New Zealand.” [Çevrimiçi]: http://www.cs.waikato.ac.nz/ml/. [Erişim: 24-Mart-2015].
Toplam 21 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Mühendislik
Bölüm Makaleler
Yazarlar

Ahmet Haltaş

Ahmet Alkan

Mustafa Karabulut Bu kişi benim

Yayımlanma Tarihi 30 Eylül 2015
Gönderilme Tarihi 30 Eylül 2015
Yayımlandığı Sayı Yıl 2015 Cilt: 30 Sayı: 3

Kaynak Göster

APA Haltaş, A., Alkan, A., & Karabulut, M. (2015). METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 30(3), 417-427. https://doi.org/10.17341/gummfd.84777
AMA Haltaş A, Alkan A, Karabulut M. METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ. GUMMFD. Ekim 2015;30(3):417-427. doi:10.17341/gummfd.84777
Chicago Haltaş, Ahmet, Ahmet Alkan, ve Mustafa Karabulut. “METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 30, sy. 3 (Ekim 2015): 417-27. https://doi.org/10.17341/gummfd.84777.
EndNote Haltaş A, Alkan A, Karabulut M (01 Ekim 2015) METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 30 3 417–427.
IEEE A. Haltaş, A. Alkan, ve M. Karabulut, “METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ”, GUMMFD, c. 30, sy. 3, ss. 417–427, 2015, doi: 10.17341/gummfd.84777.
ISNAD Haltaş, Ahmet vd. “METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 30/3 (Ekim 2015), 417-427. https://doi.org/10.17341/gummfd.84777.
JAMA Haltaş A, Alkan A, Karabulut M. METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ. GUMMFD. 2015;30:417–427.
MLA Haltaş, Ahmet vd. “METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, c. 30, sy. 3, 2015, ss. 417-2, doi:10.17341/gummfd.84777.
Vancouver Haltaş A, Alkan A, Karabulut M. METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ. GUMMFD. 2015;30(3):417-2.

Cited By






Klasik Türk müziğinde makam tanıma için veri madenciliği kullanımı
Gazi Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi
Didem Abidin
https://doi.org/10.17341/gazimmfd.369557