Web sitelerin sayısı hızlı bir şekilde artmakta
ve bu sitelerde bulunabilecek zararlı içeriği engellemek ya da yararlı
bilgilere daha kolay ulaşmak için, Web sayfalarını içerikleri doğrultusunda
sınıflandırmak bir çözüm olarak ortaya çıkmaktadır. Sınıflandırma sayesinde,
belirli sitelerin erişimine izin verilebilir veya bunları engellemek için Web
siteleri filtrelenebilir. Bu çalışmada, farklı makine öğrenmesi yöntemleri ve
yapay sinir ağları kullanılarak Web sitesi sınıflandırma problemi
incelenmiştir. Bu sınıflandırma probleminin çözümü için, İkili Sınıflandırma ve
Çoklu Sınıflandırma olarak iki farklı yaklaşım uygulanmış, her iki yaklaşım da
çalışma kapsamında toplanan Web siteleri üzerinde test edilip, başarımları
karşılaştırılmıştır. Tüm deneysel sonuçlar göz önüne alındığında İkili
Sınıflandırma yaklaşımının, sadece istenilen bir Web site sınıfının
filtrelenmesi görevini yerine getirmek için kullanıldığında daha etkili olacağı
tespit edilmiştir. Başarıma bakıldığında ikili sınıflandırıcılar için en iyi
performans gösteren algoritma Lojistik Regresyondur. Çoklu Sınıflandırma
yaklaşımında uygulanan algoritmaları arasından ise en yüksek başarıma sahip
yöntem Destek Vektör Makineleri (SVM) olmuştur. Ayrıca, Çoklu Sınıflandırma
problemi için farklı kelime vektörleştirme yöntemleri denenmiş ve
performansları karşılaştırılmıştır. İkili ve Çoklu sınıflandırma
yaklaşımlarında kullanılan algoritmalarının ayrı ayrı ve farklı vektörleştirme
yöntemleri ile denenmesi, Web sayfalarının sınıflandırılması ve içerik filtrelenmesi
problemlerini birlikte ele alınmasını sağlamış olup, alandaki benzer
çalışmalardan farkı ortaya konmuştur.
Web Sayfa Sınıflandırması Metin Madenciliği Doğal Dil İşleme Makine Öğrenmesi
As
the number of Web sites is growing rapidly, classifying Web pages with respect
to their contents proposes itself as a possible solution to prevent accessing
malicious content that may be found on these sites or to access useful
information in an easier way. With such a classification, access to specific
sites may be allowed or these sites may be filtered and thus access to them may
be prevented. In this study, the Web site classification problem is examined by
using different machine learning methods and artificial neural networks. In
order to solve this classification problem, two different approaches are
proposed, namely Binary Classification and Multiple Classification. Both
approaches are tested and their performances are compared by using a number of
Web sites collected for this study. Considering all experimental results, it
has been found that the Binary Classification approach is more effective only
when it is used to perform the task of filtering a desired Web site class. In
terms of performance, Logistic Regression is the best performing algorithm for
binary classifiers. Among the algorithms applied in the Multiple Classification
approach, Support Vector Machines (SVM) is found as the most successful method.
Furthermore, different word vectorization methods have been employed and their
performances have been compared within the Multiple Classification problem. Algorithms
used in Binary and Multi-class Classification approaches have been separately
tested by using different vectorization methods. By this way the classification
and content filtering problems on Web pages have been approached together, thus
differentiating this study from similar researches in the domain.
Web Page Classification Text Mining Natural Language Processing Machine Learning
Birincil Dil | Türkçe |
---|---|
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Aralık 2019 |
Yayımlandığı Sayı | Yıl 2019 Cilt: 5 Sayı: 2 |