Bu çalışmada, Türkçe metinler için sözlük dışı
kelime (SDK) tespiti yapabilen anlamsal bir çizge ağı modeli sunulmuştur. Doğal
dil işleme (DDİ) alanında, biçimbirimsel çözümleyiciler, kelime analizi
esnasında bilinmeyen kelime (BK)’lerle karşılaşabilmektedirler. Bu durum daha
çok, bu tip araçların çözümleme esnasında aday bulabilmeleri için bir sözlüğe
bağımlı oldukları durumlarda oluşmaktadır.
Bazen, bir çözümleyici madde başı adaylarının sözlükte mevcut olmaması
sebebiyle hiçbir madde başı adayını bulamamaktadır. Bu durum çözümleme çıktı
değerini düşürebilmektedir. Sözlük dışı
kelime (SDK) tespiti için önerilen model, sözlükler için uygun olabilecek
sözlük dışı kelimeleri tespit edebilmektedir. Ayrıca çizge veri tabanında
birliktelik ilişkileri kullanılarak bir anlamsal alt-ağ oluşturulmuş ve yeni
eşdizimliliklerin madde başı olarak önerilecek şekilde keşfedilmesi amacıyla
kullanılmıştır.
In this study, we present a semantic graph network
model which is capable of detecting out-of-vocabulary (OOV) words in Turkish
texts. In natural language processing (NLP) field, morphological analyzers can
encounter unknown words (UW) during word processing. This mostly occurs when
these kind of tools depend on a dictionary to find the probable lemmas in order
to further process parsing.
Sometimes, an analyzer is unable to find any candidates because of the
non-existence of the lemma candidates in the dictionary. This results in
degraded parsing output. The proposed model for OOV detection is able to define
OOV words which are suitable for dictionaries. Also co-occurrence relations of
the lemmas in texts are modelled as a semantic sub-graph and it is used to
discover collocations to propose as new lemma candidates.
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Araştırma Makaleleri |
Authors | |
Publication Date | October 31, 2019 |
Published in Issue | Year 2019 Volume: 8 Issue: 2 |