This type of information gathered from various news
sources, internationally trusted news agencies, and the terror information
collected between 1970 and 2017, and discussed the data set called Global
Terrorism Database (GTD) with PGIS. Analysis and classification decision of
terrorist incidents by using big data technology techniques by applying
algorithms to classify machine learning methods to terrorist data datasets,
large data processing tool which predicts which terrorist group is performed by
a terrorist event is made here. In the event of a terrorist attack, the type of
attack, country, region, target audience and type of weapons to capture such
information is estimated to seize. Apache Spark framework and Python
programming language for the development of big data tool. Classification
algorithms from several different machine learning methods were applied to the
top 10 terrorist organizations that carried out the most attacks from the GTD
dataset. Performance among these algorithms was shown. The algorithms applied
are for the highest value with 98.2% of the K-Nearest Neighbor (KNN) algorithm
as the highest accuracy rate of sorting. The logistic regression (LR) algorithm
was specified according to the situation appropriate for the big data set.
Bu çalışmada 1970-2017 tarihleri arasındaki çeşitli haber kaynaklarından ve uluslararası geçerliliği kanıtlanmış haber ajanslarından elde edilen terör verilerinin bir araya gelerek oluşturulan Global Terrorism Database (GTD) isimli veri kümesi ele alınmıştır. Terör olaylarının büyük veri çerçevesinde makine öğrenmesi teknikleri ile analizi ve sınıflandırma işlemleri gerçekleştirilmiştir. GTD veri kümesine makine öğrenmesi yöntemlerinden sınıflandırma algoritmaları uygulanarak, bir terör olayının hangi terör örgütü tarafından gerçekleştirildiğini tahmin eden büyük veri işleme aracı geliştirilmiştir. Bir terör olayında saldırının tipi, saldırı yapılan ülke, bölge, saldırının hedef kitlesi ve kullanılan silah türü gibi özellikler ele alınarak tahmin edilmede kullanılmıştır. Büyük veri işleme aracının geliştirilmesinde Apache Spark (PySpark) çatısı ve Python programlama dili kullanılmıştır. GTD veri kümesi içeriğinde bulunan en çok saldırı gerçekleştiren ilk 10 terör örgütü ele alınarak, altı farklı sınıflandırma algoritması uygulanmıştır. Bu algoritmalar arasında performans değerlendirmesi yapılmış ve karşılaştırılmıştır. Uygulanan algoritmalar arasından en yüksek ağırlıklı doğruluk oranı olarak K-En Yakın Komşu (KNN) algoritması % 98,2 ile en yüksek değer bulunmuştur. Lojistik Regresyon (LR) algoritmasının büyük veri kümesi için uygun olmadığı tespit edilmiştir.
Birincil Dil | Türkçe |
---|---|
Bölüm | MBD |
Yazarlar | |
Yayımlanma Tarihi | 3 Mart 2020 |
Gönderilme Tarihi | 6 Kasım 2019 |
Yayımlandığı Sayı | Yıl 2020 Cilt: 32 Sayı: 1 |