Research Article
BibTex RIS Cite

Analysis of the Effects of Different Feature Selection Methods and Ensemble Learning Algorithms in Classification of Turkish Invoices

Year 2023, Issue: 52, 272 - 278, 15.12.2023

Abstract

Companies and their supply chains have expanded significantly, especially with the Covid-19 pandemic, as people's shopping preferences shift to more digital environments. This expansion brings with it an increase in the number of invoices. By law, it has become mandatory to digitize and store physical invoices. With this necessity, automatic classification of digitalized invoices and automatic extraction of the requested information when necessary has become a very important need. Various studies involving different learning algorithms have been carried out, especially for the automatic analysis of invoices in English and other languages. However, there does not appear to be enough studies and publicly available datasets to automatically analyze and classify Turkish-language invoices. Based on this motivation, in this study, we aimed to analyze the performance of different feature selection methods on the problem of classification of Turkish language invoices with ensemble learning models. We performed 2 datasets of 15k and 50k sizes, in which we created our experiments. We observed the performance effects of Information Gain, Chi Square, Gain Ratio, Back-Feed feature selection methods on K-Nearest Neighbor (KNN), Support Vector Machine (SVM), Naive Bayes (NB), Random Forest (RO), Adaboost ensemble learning classification algorithms and Sprinkling technique on these datasets. According to the experimental results, the highest classification success was obtained by using the Back-Feed feature selection method and Adaboost ensemble learning algorithm together. As far as we know, this study is the first study on the solution of the problem of classification of Turkish invoices using the Sprinkling technique with ensemble learning algorithms. Therefore, in order to contribute to the literature in the field of Turkish invoice classification, the datasets and improved algorithms used in this study have been made available to other researchers.

References

  • M. B. Wattar, "Analysis and Comparison of invoice data extraction methods," Doctoral dissertation, PhD thesis, University of Applied Sciences, 2021.Lee, K.-F., Automatic Speech Recognition: The Development of the SPHINX SYSTEM, Kluwer Academic Publishers, Boston, 1989.
  • A. Khan, "Comparison of machine learning approaches for classification of invoices," Master's thesis, 2020.
  • Ö. Arslan, "Evrişimsel sinir ağları ve metin benzerliği kullanılarak fatura görüntülerinde sınıflandırma," Master's thesis, Konya Teknik Üniversitesi, 2021.
  • K. M. Yindumathi, S. S. Chaudhari and R. Aparna, "Analysis of Image Classification for Text Extraction from Bills and Invoices," 11th International Conference on Computing, Communication and Networking Technologies (ICCCNT), Kharagpur, India, 2020, pp. 1-6, doi: 10.1109/ICCCNT49239.2020.9225564.
  • D. Kılınç, "The effect of ensemble learning models on Turkish text classification," Celal Bayar University Journal of Science, vol. 12, no. 2, 2016.
  • Y. Wang, J. Liu, and L. Feng, "Text length considered adaptive bagging ensemble learning algorithm for text classification," Multimedia Tools and Applications, pp. 1-26, 2023.
  • Ö. Arslan and S. A. Uymaz , "Classification of Invoice Images By Using Convolutional Neural Networks", Journal of Advanced Research in Natural and Applied Sciences, vol. 8, no. 1, pp. 8-25, Mar. 2022, doi:10.28979/jarnas.953634
  • A. S. Tarawneh, A. B. Hassanat, D. Chetverikov, I. Lendak and C. Verma, "Invoice Classification Using Deep Features and Machine Learning Techniques", 2019 IEEE Jordan International Joint Conference on Electrical Engineering and Information Technology
  • (JEEIT), Amman, Jordan, 2019, pp. 855-859, doi: 10.1109/JEEIT.2019.8717504
  • X. Hu and R. Zhang, "Text classification based on machine learning", 2022 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA), Dalian, China, 2022, pp. 911-916, doi: 10.1109/ICAICA54878.2022.9844556.
  • H. Budak, "Özellik seçim yöntemleri ve yeni bir yaklaşım", Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, cilt. 22, ss. 21-31, 2018.
  • S. Chakraborti, R. Lothian, N. Wiratunga, S. Watt, Sprinkling: Supervised Latent Semantic Indexing. In European Conference on Information Retrieval 2006, 510-514. Springer Berlin Heidelberg.
  • D. Kınık & A. Güran, “TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması”, Avrupa Bilim ve Teknoloji Dergisi, (21), 323-332, 2021.

Türkçe Faturaların Sınıflandırılmasında Farklı Öznitelik Seçimi Yöntemleri ile Topluluk Öğrenme Algoritmalarının Etkilerinin İncelenmesi

Year 2023, Issue: 52, 272 - 278, 15.12.2023

Abstract

Özellikle Covid-19 pandemisiyle birlikte insanların alışveriş tercihlerinin daha çok dijital ortamlara geçmesiyle birlikte şirketler ve tedarik zincirleri de ciddi manada genişledi. Bu genişleme beraberinde fatura sayılarında da artışı getiriyor. Kanunen fiziki faturaların dijitalleştirilmesi ve saklanması zorunlu hale geldi. Bu zorunlulukla beraber dijitalleşmiş faturaların otomatik olarak sınıflandırılması ve gerekli durumlarda istenilen bilgilerin otomatik olarak çıkartılması çok önemli bir ihtiyaç haline gelmiştir. Özellikle İngilizce dilindeki ve diğer dillerdeki faturaların otomatik yöntemlerle analiz edilmesi için farklı öğrenme algoritmaları içeren çeşitli çalışmalar yapılmıştır. Ancak Türkçe dilindeki faturaların otomatik olarak analiz edilmesi ve sınıflandırılması için yeterli miktarda çalışma ve kamuya açık veri kümesi olmadığı görülmektedir. Bu motivasyonla yola çıkarak bu çalışmada, farklı özellik seçimi yöntemlerinin Türkçe dilindeki faturaların topluluk öğrenme modelleri ile sınıflandırılması problemi üzerindeki performansını analiz etmeyi amaçladık. Deneylerimizi oluşturduğumuz 15k ve 50k boyutlarındaki 2 adet veri kümesi üzerinde gerçekleştirdik. Bu veri kümeleri üzerinde Bilgi Kazancı, Chi Kare, Kazanç Oranı, Geriye Beslemeli özellik seçimi yöntemlerinin K-En Yakın Komşu (KNN), Destek Vektör Makineleri (DVM), Naif Bayes (NB), Rassal Orman (RO), Adaboost topluluk öğrenme sınıflandırma algoritmalarının ve Serpme (Sprinkling) tekniğinin performans etkilerini gözlemledik. Deneysel sonuçlara göre en yüksek sınıflandırma başarısı Geriye Beslemeli özellik seçimi yöntemi ve Adaboost topluluk öğrenme algoritmasının birlikte kullanılması ile elde edilmiştir. Bildiğimiz kadarıyla bu çalışma Serpme (Sprinkling) tekniğinin topluluk öğrenme algoritmalarıyla beraber Türkçe faturaların sınıflandırılması probleminin çözümü üzerine ve bu kapsamda yapılmış ilk çalışma olma özelliğini taşımaktadır. Türkçe fatura analizi ile ilgili kaynakların yetersiz olmasından ötürü Türkçe fatura analizi üzerine yapılan çalışmalar da oldukça kısıtlı sayıdadır. Dolayısıyla, Türkçe fatura sınıflandırması alanında literatüre katkıda bulunabilmek için bu çalışmada kullanılan veri kümeleri ve geliştirilmiş algoritmalar diğer araştırmacıların erişimine açık hale getirilmiştir.

References

  • M. B. Wattar, "Analysis and Comparison of invoice data extraction methods," Doctoral dissertation, PhD thesis, University of Applied Sciences, 2021.Lee, K.-F., Automatic Speech Recognition: The Development of the SPHINX SYSTEM, Kluwer Academic Publishers, Boston, 1989.
  • A. Khan, "Comparison of machine learning approaches for classification of invoices," Master's thesis, 2020.
  • Ö. Arslan, "Evrişimsel sinir ağları ve metin benzerliği kullanılarak fatura görüntülerinde sınıflandırma," Master's thesis, Konya Teknik Üniversitesi, 2021.
  • K. M. Yindumathi, S. S. Chaudhari and R. Aparna, "Analysis of Image Classification for Text Extraction from Bills and Invoices," 11th International Conference on Computing, Communication and Networking Technologies (ICCCNT), Kharagpur, India, 2020, pp. 1-6, doi: 10.1109/ICCCNT49239.2020.9225564.
  • D. Kılınç, "The effect of ensemble learning models on Turkish text classification," Celal Bayar University Journal of Science, vol. 12, no. 2, 2016.
  • Y. Wang, J. Liu, and L. Feng, "Text length considered adaptive bagging ensemble learning algorithm for text classification," Multimedia Tools and Applications, pp. 1-26, 2023.
  • Ö. Arslan and S. A. Uymaz , "Classification of Invoice Images By Using Convolutional Neural Networks", Journal of Advanced Research in Natural and Applied Sciences, vol. 8, no. 1, pp. 8-25, Mar. 2022, doi:10.28979/jarnas.953634
  • A. S. Tarawneh, A. B. Hassanat, D. Chetverikov, I. Lendak and C. Verma, "Invoice Classification Using Deep Features and Machine Learning Techniques", 2019 IEEE Jordan International Joint Conference on Electrical Engineering and Information Technology
  • (JEEIT), Amman, Jordan, 2019, pp. 855-859, doi: 10.1109/JEEIT.2019.8717504
  • X. Hu and R. Zhang, "Text classification based on machine learning", 2022 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA), Dalian, China, 2022, pp. 911-916, doi: 10.1109/ICAICA54878.2022.9844556.
  • H. Budak, "Özellik seçim yöntemleri ve yeni bir yaklaşım", Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, cilt. 22, ss. 21-31, 2018.
  • S. Chakraborti, R. Lothian, N. Wiratunga, S. Watt, Sprinkling: Supervised Latent Semantic Indexing. In European Conference on Information Retrieval 2006, 510-514. Springer Berlin Heidelberg.
  • D. Kınık & A. Güran, “TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması”, Avrupa Bilim ve Teknoloji Dergisi, (21), 323-332, 2021.
There are 13 citations in total.

Details

Primary Language Turkish
Subjects Electronic Documentation Management Systems, Information Systems (Other), Machine Learning (Other), Data Mining and Knowledge Discovery
Journal Section Articles
Authors

İlker Yıldız 0000-0001-9167-2774

Ayberk Emin Kotan 0000-0001-5085-2031

Ayşe Berna Altınel 0000-0001-5544-0925

Early Pub Date December 28, 2023
Publication Date December 15, 2023
Published in Issue Year 2023 Issue: 52

Cite

APA Yıldız, İ., Kotan, A. E., & Altınel, A. B. (2023). Türkçe Faturaların Sınıflandırılmasında Farklı Öznitelik Seçimi Yöntemleri ile Topluluk Öğrenme Algoritmalarının Etkilerinin İncelenmesi. Avrupa Bilim Ve Teknoloji Dergisi(52), 272-278.