Amaç: Metinsel verileri sayısal hale getirerek veri madenciliği algoritmalarına uygulanmasını sağlayan metin madenciliği, günümüz dünyasında önemli bir yere sahiptir. Bu çalışmanın amacı, metin madenciliği yöntemini tanıtmak ve sağlık alanında belirlenen bir konuda uygulamasını göstermektir.
Gereç ve Yöntem: Çalışmanın uygulama aşamasında; insan-ve-kanser” ve fare- ve-kanser” şeklinde belirlenen iki farklı konu başlığı altında en sık kullanılan Pubmed veritabanından ayrı ayrı elde edilen dokümanlara ve daha sonra birleştirilmiş dokümanlara Knime programı aracılığıyla metin madenciliği yöntemi uygulanmış ve K nearest neighbor (K-NN) algoritması kullanılarak doküman sınıflaması yapılmıştır.
Bulgular: Etiket bulut grafiklerinde öne çıkan kelimeler “cell” (hücre) ve “cancer” (kanser) kelimeleridir. Her iki dokümanda frekans değeri yüksek çıkan “cell”, “cancer”, “tumor”, “patient” gibi kelimelerin veriler birleştirildikten sonra yapılan analizde de yüksek oranla çıktığı gözlenmiştir. 600 adet test dokümanının 255 tanesi insan-ve-kanser sınıfına, geri kalanının ise fare-ve-kanser sınıfına ait oldukları; F ölçütüne göre insan-ve-kanser dokümanları için %56,6’lık, fare-ve-kanser dokümanları için ise %62,6’lık doğru sınıflandırılma yüzdesi tespit edilmiştir. K-NN algoritması ile %59,8 oranında kısmen başarılı bir doküman sınıflama tahmini yapıldığı ancak Cohen kappa değerinin %19,7 olduğu ve bu uyumun zayıf düzeyde olduğu belirlenmiştir.
Sonuç: Dijital ve basılı dokümanların sayısının oldukça fazla olduğu sağlık alanında hızlı ve güvenilir bir şekilde bilgi elde edebilmek için metin madenciliği yönteminden yararlanılması ve kullanımının yaygınlaştırılması önerilmektedir.
Objective: Text mining which digitalizes textual data and enables them to be applied for text mining algorithms has very important place in the today’s world. The aim of this study was to introduce the text mining method and to show its application on a subject in the field of health.
Methods: The text mining method was applied to the individual documents obtained from the most commonly used Pubmed database and then the merged documents under two different titles as “human-and-cancer” and “mouse-and-cancer” through the Knime program, and the document classification was made using K nearest neighbor (K-NN) algorithm.
Results: The prominent words were “cell” and “cancer” in tag cloud graphs. In both documents, the words such as “cell”, “cancer”, “tumor”, “patient”, whose frequency values were high, were observed to be high rates in the analysis performed after the data was merged. It was found that 255 of 600 test documents belonged to the human-and-cancer class and the remaining belonged to the mouse-and-cancer class, and the accuracy classification was 56.6% for the human-and-cancer-documents and 62.6% for the mouse-and-cancer-documents according to the F-criteria. It was determined that the document classification estimation by the K-NN algorithm was relatively successful with a rate of 59.8% however Cohen’s kappa value was 19.7%, meaning that the fit was of slight level.
Conclusion: It was recommended to use the text mining method and to generalize its use in order to obtain information quickly and reliably in the health field where there were numerous digital and printed documents.
Primary Language | English |
---|---|
Subjects | Health Care Administration |
Journal Section | Articles |
Authors | |
Publication Date | June 4, 2020 |
Acceptance Date | April 3, 2020 |
Published in Issue | Year 2020 Issue: 2 |