Tıp araştırmacıları tarafından sık kullanılan bir arama motoru olan Pubmed, MEDLINE veri tabanında üzerinde sorgulama yapmaktadır. MEDLINE medikal, biyoloji ve genetik alanındaki çalışmaları içeren ve sürekli güncel tutulan bibliyografik bir veri tabanıdır. İçerdiği yüksek hacimdeki yapısal olmayan metinler sebebiyle, MEDLINE veri tabanı veya belli bölümleri üzerinde pek çok metin sınıflandırma çalışmaları mevcuttur. Bu çalışmada kanser türleri hakkında yazılmış makale özetlerini inceleyerek makalenin hangi kanser türüyle ilgili olduğunu otomatik bulan bir metot geliştirilmiştir. Metodu eğitmek ve test etmek için MEDLINE veri tabanı üzerinde 25962 makale özeti, Pubmed arama motoru üzerinden ayrıca geliştirilen bir program (crawler) üzerinden toplanmıştır.
Elde edilen veri seti üzerinde iki ayrı çalışma yürütülmüştür. Birinci çalışmada, geliştirilen metot özellik seçim yöntemi uygulamadan ve Ki-Kare ve Bilgi Kazancı özellik seçim yöntemlerini uygulayarak, Naif Bayes ve Destek Vektör Makinelerinin sınıflandırma performans ve işlem süreleri analiz edilmiştir. Makalelerin hangi kanser türüne ait olduğunu bulmaya çalışılmış ve oldukça yüksek bir başarım elde edilmiştir. İkinci çalışmada ise, elde edilen metinlerdeki kilit anahtar kelimeler çıkartılarak, veri seti, analiz edilmesi daha zor bir hale dönüştürülmüştür. Bu ikinci veri seti üzerinde aynı metot tekrar test edilmiştir. Çalışma sonunda, çıkartılan anahtar kelimelerin sınıflandırma başarımında kilit rol oynadığı gözlemlenmiştir. Her iki durumda da, önerilen metot makul bir sınıflandırma başarımı göstermiştirBölüm | Makaleler |
---|---|
Yazarlar | |
Yayımlanma Tarihi | 25 Mayıs 2016 |
Gönderilme Tarihi | 31 Ocak 2016 |
Yayımlandığı Sayı | Yıl 2016 Cilt: 9 Sayı: 2 |