DarkWEB makes up 6% of DeepWEB, which contains data that search engines cannot index and is approximately 96% of all websites. DarkWEB is encrypted network traffic tunneled through special software such as TOR (The Onion Router) and provides a high level of anonymity with a series of anonymized connections that make the IP address untraceable. This makes it easier to carry out criminal activities such as media piracy, drug dealing, terrorism and child pornography. In this study, the statistical information of the packets was analyzed without decrypting this encrypted network traffic. Different data sets were obtained by applying categorical data coding, scaling, feature selection and data balancing pre-processes separately and together to the CIC-Darknet2020 data set used within the scope of the proposed methodology for high-accuracy detection and classification of DarkWEB traffic. Obtained data sets and Logistic Regression (LR), Gaussian Naive Bayes (GNB), Decision Tree (DT), K-Nearest Neighbor (KNN), Multi Layer Perceptron (MLP), Random Forest (RF), eXtreme Gradient Boosting (XGBoost). ), many DarkWEB traffic detection and classification models have been created using Light Gradient Boosting Machine (LightGBM), Category Boosting (CatBoost) machine learning algorithms. With the models created, Encryption (Encrypted, Standard), Category (Tor, Non-Tor, Non-VPN, VPN), Subcategory (Audio-Stream, Browsing, Chat, E-mail, P2P, Transfer, Video-Stream, VOIP) classes 2, 4 and 8 classifications were made. The correct detection and classification rate of DarkWEB traffic was achieved at 99.9% in 2-way and 4-way classification and 94% in 8-way classification.
DarkWEB, arama motorlarının indeksleyemediği verileri içeren ve tüm web sitelerinin yaklaşık %96’sı olan DeepWEB’in %6’sını oluşturur. DarkWEB, TOR (The Onion Router) gibi özel yazılımlar ile tünellenen şifreli ağ trafiğidir ve IP adresini izlenemez hale getiren anonimleştirilmiş bir dizi bağlantı ile yüksek düzeyde anonimlik sağlar. Bu durum medya korsanlığı, uyuşturucu satıcılığı, terörizm, çocuk pornografisi gibi suç faaliyetlerinin gerçekleştirilmesini kolaylaştırır. Bu çalışmada, bu şifreli ağ trafiğinde deşifreleme işlemi yapılmadan, paketlerin istatistiki bilgileri analiz edilmiştir. DarkWEB trafiğinin yüksek doğrulukta tespiti ve sınıflandırılması için önerilen metodoloji kapsamında kullanılan CIC-Darknet2020 veri setine kategorik veri kodlama, ölçeklendirme, öznitelik seçimi ve veri dengeleme ön işlemleri ayrı ayrı ve de birlikte uygulanarak farklı veri setleri elde edilmiştir. Elde edilen veri setleri ve Logistic Regression (LR), Gaussian Naive Bayes (GNB), Decision Tree (DT), K-Nearest Neighbor (KNN), Multi Layer Perceptron (MLP), Random Forest (RF), eXtreme Gradient Boosting (XGBoost), Light Gradient Boosting Machine (LightGBM), Category Boosting (CatBoost) makine öğrenme algoritmaları kullanılarak çok sayıda DarkWEB trafiği tespit ve sınıflandırma modeli oluşturulmuştur. Oluşturulan modeller ile Encryption (Şifreli, Standart), Category (Tor, Non-Tor, Non-VPN, VPN), Subcategory ( Audio-Stream, Browsing, Chat, E-mail, P2P, Transfer, Video-Stream, VOIP) sınıfları olmak üzere 2’li, 4’lü, 8’li sınıflandırmalar yapılmıştır. 2’li ve 4’lü sınıflandırmada %99.9, 8’li sınıflandırmada ise %94, DarkWEB trafiği doğru tespit ve sınıflandırma oranına ulaşılmıştır.
Primary Language | Turkish |
---|---|
Subjects | Software Engineering (Other) |
Journal Section | Research Articles |
Authors | |
Publication Date | December 31, 2023 |
Submission Date | November 19, 2023 |
Acceptance Date | December 20, 2023 |
Published in Issue | Year 2023 Volume: 9 Issue: 4 |