İnternet teknolojilerinin hızla yaygınlaşması, insanların bilgiye erişim açısından yaşamlarını kolaylaştırmaktadır. Ancak internetin bu olumlu yönlerine ilaveten olumsuz etkileride göz ardı edilemez. Bunların en önemlisi ise sosyal medya üzerinden güvenilirliği tartışmalı olan bilgiye erişmek isteyen insanların aldatılmasıdır. Aldatma, genel olarak insanların belirli bir konuda düşüncelerini yönlendirmeyi ve belirli bir amaca yönelik toplumsal bir algı oluşturmayı amaçlar. Bu fenomenin tespiti, sosyal ağları kullanan insan sayısındaki muazzam artış nedeniyle giderek daha önemli hale geliyor. Bazı araştırmacılar son zamanlarda aldatma tespiti problemini çözmek için teknikler önermiş olsa da, farklı değerlendirme ölçütleri açısından yüksek performanslı sistemler tasarlamaya ve kullanmaya ihtiyaç vardır. Bu çalışmada, çevrimiçi sosyal ağlarda aldatma tespiti problemi bir sınıflandırma problemi olarak modellenmiş ve metin madenciliği ve makine öğrenmesi algoritmaları kullanılarak sosyal ağlardaki yanıltıcı içerikleri tespit eden bir metodoloji önerilmiştir. Bu yöntemde içerik metin tabanlı olduğu için metin madenciliği işlemleri yapılmakta ve yapılandırılmamış veri kümeleri yapılandırılmış veri kümelerine dönüştürülmektedir. Ardından denetimli makine öğrenmesi algoritmaları uyarlanmata ve yapılandırılmış veri kümelerine uygulanmaktadır. Bu çalışmada, gerçek halka açık veri setleri kullanılmış ve Destek Vektör Makinesi, k-Nearest Neighbor (k-NN), Naive Bayes (NB), Random Forest, Decision Trees, Gradient Boosted Trees (GBT) ve Logistic Regresyon algoritmaları birçok farklı metrik açısından karşılaştırılmıştır. Veri seti 1’de en yüksek ortalama doğruluk değerini %74.4 GBT algoritmasında elde edilirken, Veri seti 2’de en yüksek ortalama doğruluk değeri %71.2 ile NB algoritmasından elde edilmiştir.
The rapid dissemination of Internet technologies makes it easier for people to live in terms of access to information. However, in addition to these positive aspects of the internet, negative effects cannot be ignored. The most important of these is to deceive people who have access to information whose reliability is controversial through social media. Deception, in general, aims to direct the thoughts of the people on a particular subject and create a social perception for a specific purpose. The detection of this phenomenon is becoming more and more important due to the enormous increase in the number of people using social networks. Although some researchers have recently proposed techniques for solving the problem of deception detection, there is a need to design and use high-performance systems in terms of different evaluation metrics. In this study, the problem of deception detection in online social networks is modeled as a classification problem and a methodology that detects misleading contents in social networks using text mining and machine learning algorithms is proposed. In this method, since the content is text-based, text mining processes are performed and unstructured data sets are converted to structured data sets. Then supervised machine learning algorithms are adapted and applied to the structured data sets. In this paper, real public data sets are used and Support Vector Machine, k-Nearest Neighbor (k-NN), Naive Bayes, Random Forest, Decision Trees, Gradient Boosted Trees, and Logistic Regression algorithms are compared in terms of many different metrics.
Classification Deception Detection Machine Learning Social Networks
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 30 Haziran 2022 |
Gönderilme Tarihi | 13 Eylül 2021 |
Kabul Tarihi | 4 Şubat 2022 |
Yayımlandığı Sayı | Yıl 2022 |