Nowadays, it is feasible to analyze text data that is being generated at an exponential rate by transforming it into a sparse matrix of big size using a certain weighting method. A comprehensive text weighting approach consists of three fundamental components: Term Frequency, Document Frequency, and Vector Normalization. The multiplication of these three components yields numerical values that indicate the significance of a word for a text. Nevertheless, the unprocessed state of these values is unsuitable for the semantic analysis of textual material. There are multiple techniques available for this objective, and Topic Analysis, which seeks to identify subjects discussed in extensive text collections, is one of these techniques. The Non-Negative Matrix Factorization (NMF) approach is commonly employed in topic analysis. It involves transforming an input matrix into the product of two or more matrices, using both random and deterministic beginning values. This study involved conducting tests on a dataset of 20,000 articles sourced from Wikipedia, the online encyclopedia, with the aim of investigating the impact of text weighting methods and initial value approaches commonly employed in the literature on the NMF method. The number of clusters to be used in the studies was determined using an analytical procedure, which employed an upper limit. The results indicate that the “lnc” and “nnc” weighting schemes yielded the highest performance in NMF. These findings demonstrate that employing the “lnc” or “nnc” weighting scheme will lead to more favorable outcomes in the domain of topic analysis.
Topic Analysis Text-Weighting Schemas Non-negative Matrix Factorization Performance Comparison
Günümüzde üstel bir şekilde üretilen metin verisinin analiz edilebilmesi, bu verinin belirli bir ağırlıklandırma yaklaşımı ile büyük boyutlu seyrek bir matrise çevrilmesi ile mümkün olmaktadır. İdeal bir metin ağırlıklandırma yaklaşımının 3 temel bileşeni bulunmakta olup; bunlar Terim Frekansı, Doküman Frekansı ve Vektör Normalizasyonu bileşenleridir. Bu üç bileşenin çarpımı ile bir kelimenin bir metin için önemini ifade eden sayısal değerler elde edilir. Ancak bu değerlerin ham hali metin verisinin anlamsal olarak analiz edilmesi için uygun değildir. Bu amaçla çeşitli yöntemler bulunmakta olup, büyük metin koleksiyonlarında bahsedilen konuları bulmayı amaçlayan Konu Analizi bu yöntemlerden bir tanesidir. Bu amaçla konu analizinde bir girdi matrisini hem rastgele hem de deterministik başlangıç değeri ile iki veya daha fazla matrisin çarpımına dönüştürmeyi hedefleyen Negatif Olmayan Matris Ayrışımı (NMF) yönteminden sıklıkla faydalanılır. Bu çalışmada, literatürde kullanılan metin ağırlıklandırma yöntemlerinin ve başlangıç değer yaklaşımlarının NMF yöntemi üzerinde etkilerinin bulunması amacıyla, Vikipedi özgür internet ansiklopedisinden elde edilen 20.000 makale üzerinde denemeler yapılmıştır. Denemelerde kullanılacak küme sayısının elde edilmesi için analitik bir yöntem yardımıyla bir üst sınır kullanılmıştır. Elde edilen sonuçlara göre, NMF üzerinde en iyi başarıma “lnc” ve “nnc” ağırlıklandırma şemalarıyla ulaşılmıştır. Buda konu analizi alanında “lnc” veya “nnc” ağırlıklandırma şemalarının kullanılmasıyla daha başarılı sonuçlar elde edileceğini göstermiştir.
Konu Analizi Metin Ağırlıklandırma Şemaları Negatif Olmayan Matris Ayrışımı Başarım Karşılaştırması
Birincil Dil | İngilizce |
---|---|
Konular | Performans Değerlendirmesi |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Erken Görünüm Tarihi | 15 Ocak 2025 |
Yayımlanma Tarihi | |
Gönderilme Tarihi | 31 Ocak 2024 |
Kabul Tarihi | 2 Nisan 2024 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 27 Sayı: 79 |
Dokuz Eylül Üniversitesi, Mühendislik Fakültesi Dekanlığı Tınaztepe Yerleşkesi, Adatepe Mah. Doğuş Cad. No: 207-I / 35390 Buca-İZMİR.