The
development of technology has also changed the level and form of communication.
Two-ended closed-circuit communication (telephone, letter, telegraph, etc.)
models have been replaced by communication models that are originated from a
single point and opens to the world (Facebook, Twitter, Instagram, etc.). While
this makes it impossible for us to determine the limits of communication
personally, it also makes a lot of personal communication paths that cannot be
hidden (E-mail, Whatsapp number, etc.). The current situation carries many
risks, such as by a simple e-mail, that private data stored on the computer
gets into the hands of undesirable people. In order to prevent this, many virus
software is being developed and it helps to detect the risky elements
encountered in electronic environment. However, some risky elements appear as a
normal text rather than a virus format. In such cases it is necessary to
examine the relevant text as content and decide whether it is risky or not. In
this study, e-mails with spam and ham content are determined and classified by
a text mining algorithm. For this purpose, a composite polarity variable based
on the gamma relationship coefficient was created and generalized linear models
were established on this variable. The average classification success of the
models is approximately 81.2%.
Text Mining Data Mining Generalized Linear Model Polarity Gamma Relationship Coefficient Classification Communication Spam Content
Teknolojinin gelişimi,
iletişimin düzey ve şeklini de değiştirmiştir. İki nokta arası kapalı devre
iletişim (telefon, mektup, telgraf, vb.) modellerinin yerini daha çok, tek
noktadan tüm dünyaya açılan (Facebook, Twitter, Instagram, vb.) iletişim
modelleri almıştır. Bu durum iletişimin sınırlarını kişisel olarak
belirlememizi imkânsız hale getirirken, gizlemesi mümkün olmayan (E-mail,
Whatsapp numarası, vb.) birçok kişisel iletişim yolunu da
dünyaya açık hale getirmektedir. Basit bir e-mail yoluyla, bilgisayarda kayıtlı
özel verilerin istenmeyen kişilerin eline geçmesi gibi, mevcut durum birçok risk
taşımaktadır. Buna engel olmak amacıyla birçok virüs yazılımı geliştirilmekte
ve elektronik ortamda karşılaşılan riskli unsurların tespitinde yardımcı olmaktadır.
Ancak bazı riskli unsurlar virüs formatından uzak, normal bir metin olarak karşımıza
çıkmaktadır. Bu tarz durumlarda ilgili metnin içerik olarak incelenip, riskli
olup olmadığına karar vermek gerekmektedir. Bu çalışmada, istenen ve istenmeyen
içeriğe sahip e-postaların bir metin madenciliği algoritması ile tespit edilip
sınıflandırılması işlemi yapılmaktadır. Bu amaçla, gama ilişki katsayısına
dayalı kompozit bir polarite değişkeni oluşturulmuş ve bu değişken üzerine
genelleştirilmiş lineer modeller kurulmuştur. Modellerin sınıflandırma başarısı
ortalama ise yaklaşık % 81,2’dir.
Metin Madenciliği Veri Madenciliği Genelleştirilmiş Lineer Model Polarite Gama İlişki Katsayısı Sınıflandırma İletişim İstenmeyen İçerik
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 28 Aralık 2018 |
Yayımlandığı Sayı | Yıl 2018 Cilt: 2 Sayı: 2 |