Research Article
BibTex RIS Cite

Makine Öğrenmesi Yaklaşımıyla e-Belgelere Standart Dosya Plan Numaralarının Otomatik Olarak Atanması Üzerine Bir Çalışma

Year 2019, , 116 - 126, 31.12.2019
https://doi.org/10.33721/by.654464

Abstract

Belge üretimindeki artış ve teknolojik olanaklar beraberinde yeni yönetim metotlarının gerekliliğini kaçınılmaz kılmıştır. Türkiye’de kamu kuruluşlarında üretilen belgeler Standart Dosya Planı’na uygun olarak düzenlenir ve yönetilirler. İlgili mevzuata koşut olarak resmi yazışmaların konusu Dosya Planından saptanmak ve konuyla bağlantılı kodları belgelere eklemek zorunluluktur. Bu kodların doğru seçilmesi, araştırma-soruşturma süreçlerinin sağlıklı işletilebilmesi ve erişim süreçlerinin başarılı şekilde sonuçlandırılabilmesi için oldukça gereklidir. Ancak kurumsal, kişisel veya yönetsel koşullara bağlı olarak belgelerin yaşam döngüsünü sekteye uğratacak yanlış kodlar verilebilmektedir. Bu tür yanlış uygulamaları minimize etmek ve belge sınıflandırmayı daha sağlıklı kılabilmek için yapay zekâ uygulamalarından yararlanılabilir.

Elektronik belge yönetimi sistemlerinde üretilen belgelere standart dosya plan kodlarının makine öğrenmesi yaklaşımıyla otomatik olarak atanması amaçlanan bu çalışma teorik ve analize dayalı olmak üzere iki kısımdan oluşmaktadır. İlkin teorik olarak standart dosya planından yararlanarak otomatik belge sınıflandırmasının oluşturduğu güçlükler tartışılmış, ardından makine öğrenmesi ile belgelerin sınıflandırılması üzerine analiz yapılmıştır. Çeşitli yönetsel ve ön yargısal bariyerlerin aşılmaması ve yanı sıra kurumsal arşiv gibi otorite bir birimin olmaması belge yönetimi, eğitimi ve denetimi boşluğunu oluşturduğu ve söz konusu bu durumunun otomatik sınıflamayı sekteye uğratacağı kaygısı, dolayısıyla belgeleri yeniden sınıflandırma gerekliliği küçük bir veri kümesi ile çalışmayı zorunlu kılmıştır. Bu nedenle çalışmada analiz edilen belgeler, bu çalışmanın araştırmacısına kurum içerisinde yönlendirilen son altı aylık belgelerden oluşmaktadır. Toplamda 265 belgenin yeniden sınıflandırılması neticesinde tekil konudaki belgeler kapsam dışı bırakılmıştır. Belgelerin gövde ve konu alanları üzerinde yapılan metin madenciliği teknikleri uygulanması sonucunda, 169 belgeden oluşan bir veri seti elde edilmiştir. Bu veri setinden her konudan oransal olmak koşuluyla rastgele yöntemle belgelerin üçte biri (1/3) sınıflandırmak için seçilmiştir. Sınıflandırılmış 112 belge ve sınıflandırmak üzere oluşturulmuş 57 belgeden ibaret bu veri seti üzerinde, makine öğrenmesinde kullanılan ve son zamanlarda bilgi sektöründe popüler olan Destek Vektör Makinesi [DVM (Support Vector Machine (SVM)] algoritması çalıştırılmıştır. Çalışma sonucunda manuel olarak yapılan sınıflama ile otomatik olarak yapılan çıkarımın isabet oranı % 87.72 olarak bulunmuştur. Bir diğer ifade ile belgelerin % 87.72’si makine öğrenmesi yaklaşımıyla doğru olarak sınıflanmıştır.

References

  • Cibaroğlu, M. O. ve Yalçınkaya, B. (2019). Belge ve Arşiv Yönetimi Süreçlerinde Büyük Veri Analitiği ve Yapay Zeka Uygulamaları. Bilgi Yönetimi. doi:10.33721/by.570634
  • Joorabchi, A. ve Mahdi, A. E. (2011). An Unsupervised Approach to Automatic Classification of Scientific Literature Utilizing Bibliographic Metadata. Journal of Information Science, 37(5), 499-514. doi:10.1177/0165551511417785
  • Özdemirci, F., Torunlar, M. ve Saraç, S. (2009). Üniversiteler İçin Belge Yönetimi ve Arşiv Sistemi / İşlemleri (BEYAS) El Kitabı. Ankara: Bayut Tanıtım Matbaacılık.
  • Rolan, G., Humphries, G., Jeffrey, L., Samaras, E., Antsoupova, T. ve Stuart, K. (2019). More Human Than Human? Artificial Intelligence In The Archive. Archives and Manuscripts, 47(2), 179-203. doi:10.1080/01576895.2018.1502088
  • Sebastiani, F. (2002). Machine Learning In Automated Text Categorization. ACM Computing Surveys, 34(1), 1-47. doi:10.1145/505282.505283
  • T.C. Yükseköğretim Kurulu. (2017). Yükseköğretim Üst Kuruluşları ve Yükseköğretim Kurumları Saklama Süreli Standart Dosya Planı. https://www.yok.gov.tr/Documents/Universiteler/Standart_Dosya_Plani.pdf adresinden erişildi.
  • TÜBA. (2019). Yapay öğrenme. Türkçe Bilim Terimleri Sözlüğü. http://www.tubaterim.gov.tr/ adresinden erişildi.
  • Ullah, A., Khusro, S. ve Ullah, I. (2017). Bibliographic Classification in the Digital Age: Current Trends & Future Directions. Information Technology and Libraries, 36(3), 48-77. doi:10.6017/ital.v36i3.8930
  • Ünal, M. A. ve Özdemirci, F. (2017). EBYS (e-BEYAS) ve e-Arşiv Sistemlerinde/ Uygulamalarında Yapay Zeka Yaklaşımı. F. Özdemirci ve Z. Akdoğan (Ed.), Bilgi Sistemleri ve Bilişim Yönetimi Beklentiler ve Yeni Yaklaşımlar içinde (ss. 57-63). Ankara: BİL-BEM.
  • Wang, J. (2009). An extensive study on automated Dewey Decimal Classification. Journal of the American Society for Information Science and Technology, 60(11), 2269-2286. doi:10.1002/asi.21147

A Study on Automatic Assignment of Standard Classification Numbers to e-Records with the Machine Learning Approach

Year 2019, , 116 - 126, 31.12.2019
https://doi.org/10.33721/by.654464

Abstract

Technological opportunities and an increase in the production of records have made inevitable the necessity of new management methods. Documents produced in public institutions in Turkey are organized and managed according to the Standard File Plan. Under the relevant law, it is mandatory to determine the subject of official correspondence from the File Plan and add the relevant codes to the records. The correct selection of these codes is essential for the healthy operating of the research- investigation processes and the successful completion of the access processes. However, incorrect codes have been given depending on institutional, personal, or managerial conditions that will interrupt the life cycle of records. Artificial intelligence applications can be utilized to minimize such misapplications and to make records classification more powerful. 

This study, which is intended to automatically assign standard file plan codes with a machine learning approach to the records produced in electronic record management systems, consists of two parts as theoretical and analysis based. Firstly the difficulties of the automatic record classification were discussed in theory by using the standard file plan. Then the classification of records with machine learning was analyzed. Not to overcome the various administrative and prejudicial barriers, as well as the absence of an authority unit such as the institutional archive,  were concerned document management, training, and auditing create a gap, and this will hamper automatic classification. Therefore, the necessity to reclassify records has made it necessary to work with a small data set. For this reason, the records analyzed in the study consist of records sent to the researcher of this study within the institution in the last six months. After the reclassification of 265 records in total, records on unique subjects excluded. As a result of the application of text mining techniques on the body and subject areas of the records was obtained a dataset consisting of 169 records. From this data set, provided that each subject is proportional, one-third (1/3) of the records had been randomly selected. Supported Vector Machine (SVM) algorithm used in machine learning and recently popular in the information sector was run on this dataset consisting of 112 classified records and 57 unclassified records. As a result of the study, when the manual classification and automatic classification compared, the accuracy rate was 87.72%. In other words, 87.72% of the records were classified correctly with the machine learning approach.


References

  • Cibaroğlu, M. O. ve Yalçınkaya, B. (2019). Belge ve Arşiv Yönetimi Süreçlerinde Büyük Veri Analitiği ve Yapay Zeka Uygulamaları. Bilgi Yönetimi. doi:10.33721/by.570634
  • Joorabchi, A. ve Mahdi, A. E. (2011). An Unsupervised Approach to Automatic Classification of Scientific Literature Utilizing Bibliographic Metadata. Journal of Information Science, 37(5), 499-514. doi:10.1177/0165551511417785
  • Özdemirci, F., Torunlar, M. ve Saraç, S. (2009). Üniversiteler İçin Belge Yönetimi ve Arşiv Sistemi / İşlemleri (BEYAS) El Kitabı. Ankara: Bayut Tanıtım Matbaacılık.
  • Rolan, G., Humphries, G., Jeffrey, L., Samaras, E., Antsoupova, T. ve Stuart, K. (2019). More Human Than Human? Artificial Intelligence In The Archive. Archives and Manuscripts, 47(2), 179-203. doi:10.1080/01576895.2018.1502088
  • Sebastiani, F. (2002). Machine Learning In Automated Text Categorization. ACM Computing Surveys, 34(1), 1-47. doi:10.1145/505282.505283
  • T.C. Yükseköğretim Kurulu. (2017). Yükseköğretim Üst Kuruluşları ve Yükseköğretim Kurumları Saklama Süreli Standart Dosya Planı. https://www.yok.gov.tr/Documents/Universiteler/Standart_Dosya_Plani.pdf adresinden erişildi.
  • TÜBA. (2019). Yapay öğrenme. Türkçe Bilim Terimleri Sözlüğü. http://www.tubaterim.gov.tr/ adresinden erişildi.
  • Ullah, A., Khusro, S. ve Ullah, I. (2017). Bibliographic Classification in the Digital Age: Current Trends & Future Directions. Information Technology and Libraries, 36(3), 48-77. doi:10.6017/ital.v36i3.8930
  • Ünal, M. A. ve Özdemirci, F. (2017). EBYS (e-BEYAS) ve e-Arşiv Sistemlerinde/ Uygulamalarında Yapay Zeka Yaklaşımı. F. Özdemirci ve Z. Akdoğan (Ed.), Bilgi Sistemleri ve Bilişim Yönetimi Beklentiler ve Yeni Yaklaşımlar içinde (ss. 57-63). Ankara: BİL-BEM.
  • Wang, J. (2009). An extensive study on automated Dewey Decimal Classification. Journal of the American Society for Information Science and Technology, 60(11), 2269-2286. doi:10.1002/asi.21147
There are 10 citations in total.

Details

Primary Language Turkish
Subjects Library and Information Studies
Journal Section Peer- Reviewed Articles
Authors

Kasım Binici 0000-0002-8071-9693

Publication Date December 31, 2019
Submission Date December 3, 2019
Published in Issue Year 2019

Cite

APA Binici, K. (2019). Makine Öğrenmesi Yaklaşımıyla e-Belgelere Standart Dosya Plan Numaralarının Otomatik Olarak Atanması Üzerine Bir Çalışma. Bilgi Yönetimi, 2(2), 116-126. https://doi.org/10.33721/by.654464

15529