Kelimelerin anlam belirsizliği giderilmesi metin madenciliği, bilgi erişimi, doğal dil işleme gibi alanlarda yüksek doğruluklu başarı elde edilmesi için önemli bir adımdır. Kelimelerin bağlam içerisinde yer alan doğru anlamı belirlemek için sözlük tabanlı yaklaşımlar, eğiticili- eğiticisiz öğrenmede kullanılan etiketli-etiketsiz külliyatlar, kelime gömme gibi yeni yaklaşımlar sıklıkla kullanılmaktadır. Çalışmamız kapsamında ekonomi, teknoloji ve spor kategorilerine ait RSS haberleri haber sağlayıcılarından elde edilmiştir. Çalışma kapsamında RSS haber beslemelerindeki kelimeler kategorilere göre terim frekansı- ters doküman frekansı (tf-idf) ağırlandırması gerçekleştirilmiştir. Kelimeler arasındaki anlamsal benzerliklerin belirlenmesi için elle etiketlenmiş hiyerarşik çizge tabanlı sözlük olan WordNet tabanlı yaklaşımlar kullanılmıştır. İlk adımda tf-idf ağırlıklarına göre belirlenen kelimeler WordNet tabanlı Wu-Palmer, Lin ve Jiang – Conrath anlamsal benzerlik yaklaşımlarına göre tekrar sıralanmıştır. Aynı kategoride yer alan tf-idf değeri en yüksek elli kelimenin Kategorik Anlamsal İlişki Değeri (KAİD) hesaplanarak kelimelerin kategorilere ait anlamsal ilişki değerleri belirlenmiş. En yüksek KAİD değerine sahip 3, 5, 10 ve 20 kelime tüm kategoriler için çıkartılmıştır. Elde edilen kelimeler elle etiketlenmiş ve tf-idf ağırlıkları kullanılarak sıralanmış kelimelerle karşılaştırılmıştır. Karşılaştırma sonuçlarına göre iki katmanlı eleme ile anlamsal ilişkileri çıkarılan kelimeler ile insan tarafından belirlenen kelimelerin benzerlik oranının yüksek olduğu sonucu elde edilmiştir. WordNet tabanlı yöntemlerle elde edilen ve sıralanan kelimeler aynı zamanda tf-idf ağırlıklandırmasıyla elde edilen ve sıralanan kelimelerle de karşılaştırılmıştır. Sonuçlara göre ağırlıklandırma ile sıralanan kelimelerde örtüşme oranı insan algısıyla elde edilen kelimelerden daha düşük çıkmıştır. İki katmanlı değerlendirme ile oluşturulan kelimelerin anlamsal ilişki değerleri kategori uzayında görselleştirilerek anlamsal ilişki değerlerinin başarısı değerlendirilmiştir. İleriki çalışmalarda iki katmanlı değerlendirmeyle elde edilen kelimeler bilgi edinimi, metin özetleme, metin sınıflandırma alanında kullanılması hedeflenmektedir.
Anlamsal benzerlik En kısa yol ölçütleri Derinlik ölçütleri WordNet Metin madenciliği Bilgi sistemleri ve uygulamaları
Word sense disambiguation is an important step in text mining, information retrieval, natural language processing to obtain more accurate results. Dictionary- and knowledge-based, supervised, unsupervised and word embedding methods are used to discover the correct sense of words in the context. We retrieve RSS feeds ,whose categories are economy, technology and sport, to utilize in our study. After data retrieval, we used data preprocessing steps of text mining and we applied term frequency- inverse document frequency(tf-idf) for term weighting. WordNet is a large lexical database in which sense of words are kept in hierarchical network. In the first step, the words determined according to tf-idf weights were ranked according to the WordNet based semantic similarity measures Wu-Palmer, Lin and Jiang - Conrath. We used the top fifty ranked words ,which are obtained from tf-idf scores, to calculate Categorical Semantic Relationship Value (CSRV) of each word for each category. We determined the top 3, 5, 10 and 20 words due to CSRV for each category. Semantic ordered words are compared with tf-idf weighting based words and hand-labeled words which are determined according to semantic relationship by humans. The similarity rate is high between words are determined by two tier semantic structure based words and human labeled words. This similarity rate is lower between words are determined by two tier semantic structure based words and words which are ordered by tf-idf values. We also visualize the semantic similarity values in class dimension space to evaluate the success of the system. We intend to use two tier semantic structure in information retrieval, text summarization and text classification projects as future works.
Semantic similarity Shortest path measures Information content measures WordNet Text mining Information Systems and Applications
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | October 5, 2020 |
Published in Issue | Year 2020 Ejosat Special Issue 2020 (ICCEES) |