Metin madenciliğinde dil tanıma (DT), bir belgenin veya bir kısmının yazıldığı doğal dili algılama çalışmasıdır. Bu çalışmada, karakterlerin UTF-8 değerleri arasında kalan açı bilgisini kullanan metinden yeni bir dil tanıma yaklaşımı önerilmiştir. Önerilen açı yöntemi metinlerden öznitelik çıkarımı için kullanılmıştır. Açı örüntüler yöntemi istatistiksel bir yaklaşımdır. Önerilen yaklaşımı test etmek amacıyla çeşitli şekillerde oluşturulan dört veri setinin kullanılması kararlaştırılmıştır. Elde edilen öznitelikler Rastsal Orman (RO, RF, Random Forest), Destek Vektör Makinesi (DVM, SVM, Support Vector Machine), Liner Diskriminant Analiz (LDA, Linear Discriminant Analysis), Naive Bayes (NB) ve k-en yakın komşu (Knn, k-nearest neighbors) olmak üzere farklı sınıflandırma yöntemleri kullanılmıştır. Dört farklı veri seti kümesinden belirlenen DT başarım sonuçları sırası ile %96,81, %99,39, %93,31 ve %98,60 olarak gözlenmiştir. Yapılan çalışma sonucunda ulaşılan başarım sonuçlarına göre önerilen açı örüntüler yönteminin DT uygulamasında önemli ayırt edici bilgiler verdiği belirlenmiştir.
Bu çalışma Siirt Üniversitesi Mühendislik Fakültesi MaVi Laboratuvarında yapılmıştır. Bu makalenin yazarları, verilen destekten dolayı MaVi Laboratuvar çalışanlarına teşekkür ederler.
Language identification (LI) in text mining is the study of natural language perception in which a document or a part of it is written. In this study, a new language identification approach from text using the angle information between the UTF-8 values of the characters is proposed. The proposed angle method is used for feature extraction from texts. Angle patterns method is a statistical approach. It was decided to use four data sets created in various ways to test the proposed approach. The obtained features are used with different classification methods such as RF( Random Forest), SVM (Support Vector Machine), LDA (Linear Discriminant Analysis), NB (Naive Bayes) and Knn (k-nearest neighbor). LI performance results determined from four different data set sets were observed as 96.81%, 99.39%, 93.31% and 98.60%, respectively. According to the success results obtained as a result of the study, it was determined that the proposed angle patterns method gave important distinctive information in LI application.
Text-based language identification Natural language processing Angle patterns Feature extraction
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Makaleler |
Authors | |
Publication Date | February 28, 2022 |
Submission Date | December 21, 2020 |
Acceptance Date | September 25, 2021 |
Published in Issue | Year 2022 Volume: 37 Issue: 3 |