Bu çalışmada çevrimiçi kullanılabilecek bir konu tespit sistemi önerilmiştir. Gizli Dirichlet Ayırımı ile 4 farklı kategoriye ait toplam 400.000 haber dokümandan oluşan bir Türkçe derlem eğitilmiştir. Model, eğitim verisinde yer almayan, yeni gelen dokümanların konu tespitini yüksek başarı ile gerçekleştirebilmektedir. Konu modellerinin başarı değerlendirmesinde tutarlılık (coherence) değerine ek olarak sınıflandırma yöntemleri için geçerli olan kesinlik (precision), hassasiyet (recall), F-ölçümü gibi skorların elde edilmesine yönelik 2 farklı yaklaşım geliştirilmiştir. Bu yaklaşımlarda, konular ile dokümanların ait olduğu sınıfların eşleştirilmesinden yararlanılmıştır. İlk yaklaşımda, dokümanın ait olduğu sınıfa karşılık gelen konunun mevcut olup olmadığı üzerinden genel bir başarı ölçütü sunulmuştur. İkinci yaklaşımda ise modelin yüksek güven (confidence) ile gerçekleştirmediği tahminleri eleyen, “dokümanın en belirgin konusu, ait olduğu sınıftır” kabulüne göre bir eşik (threshold) değeri üzerinden değerlendirme yapılan bir ölçüt sunulmuştur.
Primary Language | Turkish |
---|---|
Journal Section | MBD |
Authors | |
Publication Date | September 15, 2021 |
Submission Date | March 19, 2021 |
Published in Issue | Year 2021 |