TOR (The Onion Routing) is a network structure that has become popular in recent years due to providing anonymity to its users and is often preferred by hidden services. In this network, which attracts attention due to the fact that privacy is essential, so the amount of data stored increases day by day, making it difficult to scan and analyze the data. In addition, it is highly likely that the process performed during the onion extension services scan will be considered as cyber-attack and the access to the relevant address will be blocked. Various crawler software has been developed in order to scan and access the services (onion web pages) in this network. However, crawling here is different from crawling pages in a surface network with extensions such as com, net, org. This is because the TOR network is located on the lower layers of the surface network, and the pages in TOR network are accessed only through the TOR browser instead of the traditional browsers (Chrome, Mozilla, etc.). In the crawler softwares developed to date, this situation was taken into consideration and in order to protect the confidentiality, the data was obtained by selecting paths through different relays in the requests made to the addresses.
In the TOR network, reaching the target address by passing over different nodes in each request sent by the users, slows down this network. In addition, the low performance of a browser that tries to retrieve information through TOR brings long periods of waiting. Therefore, working with crawler software with high crawling and information acquisition speed will improve the analysis process of the researchers. 4 different crawler software was evaluated according to various criteria in terms of guiding the people who will conduct research in this field and evaluating the superior and weaknesses of the crawlers against each other. The study provides an important point of view for choosing the right crawler in terms of initial starting points for the researchers want to analyze of Tor web services.
TOR (The Onion Routing), kullanıcısına anonimliği sağlaması sebebiyle
son zamanlarda popülerliği artan ve onion uzantılı gizli servisler tarafından
sıklıkla tercih edilen bir ağ yapısıdır. Gizliliğin esas olması nedeniyle
dikkatleri üzerine çeken bu ağda, her geçen gün depolanan veri miktarı artmakta
bu da verilerin taranma ve analiz edilme durumlarını zorlaştırmaktadır. Ayrıca,
onion uzantılı servislerin taranması sırasında yapılan işlemin siber saldırı
olarak değerlendirilip ilgili adrese erişimin engellenme ihtimali de yüksektir.
Bu ağda yer alan servislerin (onion uzantılı web sayfaları) taranması ve
içeriklerine ulaşılabilmesi için çeşitli crawler yazılımları geliştirilmiştir.
Yalnız, burada yapılan tarama com, net, org gibi uzantılara sahip yüzey ağında
yer alan sayfaların taranmasından farklıdır. Çünkü TOR ağı, yüzey ağının alt
katmanlarında yer almakta ve buradaki sayfalara geleneksel tarayıcılar
(chrome,mozilla vb.) yerine yalnızca TOR tarayıcısı aracılığıyla
ulaşılmaktadır. Geliştirilen crawler yazılımlarında bu durum dikkate alınmış ve
gizliliği korumak adına, adreslere yapılan her istekte farklı düğümler
üzerinden yol seçimi yapılarak veri edinimine dikkat edilmiştir.
TOR ağında kullanıcıların gönderdiği her istekte farklı düğümler
üzerinden geçilerek hedef adrese ulaşılması bu ağı yavaşlatmaktadır. Buna
ilaveten, TOR üzerinden bilgi getirmeye çalışan bir tarayıcının performansının
düşük olması da uzun süreler beklemeyi beraberinde getirir. Bu yüzden tarama ve
bilgi elde etme hızı yüksek crawler yazılımları ile çalışmak araştırmacıların
analiz süreçlerini de iyileştirecektir. Bu alanda araştırma yapacak olan
kişileri yönlendirmesi ve crawler yazılımlarının birbirlerine karşı olan üstün
ve zayıf yönlerinin değerlendirilmesi açısından 4 farklı crawler yazılımı
çeşitli kriterlere göre değerlendirilmiştir. Gerçekleştirilen çalışma, TOR web
servislerinin analizini yapmak isteyen araştırmacıların ilk çıkış noktaları
anlamında doğru bir crawler yazılımını seçmeleri hususunda önemli bir bakış
açısı sunmaktadır.
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | December 26, 2019 |
Submission Date | August 21, 2019 |
Acceptance Date | December 6, 2019 |
Published in Issue | Year 2019 Volume: 6 Issue: 2 |