Electronic mail is a communication tool where organizations and people frequently use various interactions such as file sharing. In addition to the beneficial effects of such tools, there is also the sharing of spam e-mail. Unwanted e-mails are labeled as 'Spam'. Spam emails; It can be a source of harmful content such as unwanted advertisements, virus interactions and phishing. It is known that security is very important in communication. For this reason, it is important to classify e-mail systems according to various criteria in order to be free from harmful tools or software. Such studies are presented under different headings in the literature. Machine learning algorithms are used effectively in classification studies. In this study, it is aimed to adapt naive bayes, logistic regression, decision tree and k-nearest neighbor algorithms to the related problem and analyze them comparatively. Here, the effect of approaches with different methodologies on the related problem is tried to be examined in detail. In this context, algorithms have been used in various data sets. The effect of datasets of different sizes and different raw/spam ratios on the study is discussed. Different performance results have been obtained. These performance results were compared according to different methods and presented in tables. The high number of datasets and spam rate provided effective results in the Enron 5 dataset. By using different feature selection methods, Decision tree algorithm performed well on Enron 4 dataset. It has been observed that the best performance performances are obtained with logistic regression and k-nearest neighbor algorithms according to the tests on the CS440/ECE448 dataset.
decision tree, k-nearest neighbor, logistic regression, naive bayes, classification, spam e-mail
Elektronik posta, kuruluşların, kişilerin sıklıkla kullandıkları dosya paylaşımı gibi çeşitli etkileşimlerin bulunduğu iletişim aracıdır. Bu tür araçların faydalı etkilerinin yanında istenmeyen elektronik posta paylaşımı da söz konusudur. İstenmeyen elektronik postalar ‘Spam’ adı ile etiketlenmektedir. Spam elektronik postalar; istenmeyen reklamlar, virüs etkileşimleri ve oltalama gibi zararlı içeriklere kaynak teşkil edebilmektedir. İletişimde güvenliğin oldukça önemli olduğu bilinmektedir. Bu sebeple elektronik posta sistemlerinin zararlı araçlardan veya yazılımlardan arındırılabilmesi için çeşitli kriterlere göre sınıflandırılması önem arz etmektedir. Literatürde bu tür çalışmalar farklı başlıklar altında sunulmaktadır. Sınıflandırma çalışmalarında makine öğrenmesi algoritmaları etkin bir şekilde kullanılmaktadır. Bu çalışma kapsamında naive bayes, lojistik regresyon, karar ağacı ve k-en yakın komşu algoritmalarının ilgili probleme uyarlanması ve karşılaştırmalı olarak analiz edilmesi amaçlanmıştır. Burada farklı metodolojilere sahip yaklaşımların ilgili problem üzerindeki etkisi detaylı olarak incelenmek istenmiştir. Bu kapsamda algoritmalar çeşitli veri setleri kullanılmıştır. Veri setlerinin farklı büyüklüklerde ve farklı ham/spam oranlarında olması çalışma üzerindeki etkisi tartışılmıştır. Farklı başarım sonuçları elde edilmiştir. Bu başarım sonuçlarının farklı metotlara göre karşılaştırması yapılarak tablolar halinde sunulmuştur. Veri seti sayısının ve spam oranının fazla olması Enron 5 veri setinde etkili sonuçların elde edilmesini sağlamıştır. Farklı özellik seçim yöntemlerinin kullanımıyla Karar ağacı algoritmasının Enron 4 veri seti üzerinde iyi performans göstermesini sağlamıştır. En iyi başarım performanslarının CS440/ECE448 veri seti üzerindeki testlere göre lojistik regresyon ve k-en yakın komşu algoritmalarıyla elde edildiği gözlemlenmiştir.
Primary Language | Turkish |
---|---|
Subjects | Computer Software |
Journal Section | Articles |
Authors | |
Publication Date | July 31, 2022 |
Submission Date | March 16, 2022 |
Published in Issue | Year 2022 Volume: 15 Issue: 3 |