Yazar profili oluşturma (Author Profiling) bir metnin üslup ve içeriğine bakarak yazarın çeşitli özelliklerinin ortaya çıkarılmasına yönelik bir metin kümesi analizidir. Bu özellikler yaş, cinsiyet, kişilik özellikleri ve hatta meslek gibi unsurları barındırır. Cinsiyet belirleme yazar profili oluşturma çalışmalarının alt alanlarından birisidir. Siber suçlar başta olmak üzere sahte haber yayma gibi adli olayların yanında pazarlama (reklamcılık), sosyolojik ve psikolojik olayların incelenmesinde cinsiyet belirleme oldukça önemlidir. Twitter gönderileri dil kurallarına uymayan, kısaltılmış kelimeler ve anlamsız cümle yapıları da içerme ihtimallerine rağmen cinsiyet belirleme görevi için yaygın bir şekilde kullanılmaktadır. Bu çalışmada Türkçe Twitter gönderilerinden cinsiyet tespiti yapılmaya çalışılmıştır. Problem bir sınıflandırma görevi olarak ele alınmıştır. Yapılan çalışmada makine öğrenmesi metotları(TF-IDF + SVM), derin öğrenme yöntemleri (LSTM, CNN) ve Türkçe için ön eğitimli dil modelleri(BERT, DistilBert, Electra) kullanılmıştır. Yapılan deneyler sonucunda en yüksek başarımı (%80.1) kelime boyutunun 128k olduğu Bert modeli sağlamıştır. Bu çalışma diğer metin sınıflandırma görevleri için de detaylı bir çalışma olma özelliği göstermektedir.
Yazar profili oluşturma cinsiyet tespiti doğal dil işleme dil modelleri metin sınıflandırma.
Author Profiling is a text set analysis to reveal various characteristics of the author by examining the style and content of a text. These features include factors such as age, gender, personality traits and even profession. Gender identification is one of the subfields of author profile creation. Gender identification is very important in the investigation of marketing (advertising), sociological and psychological events, as well as forensic events such as spreading fake news, especially cybercrime. Twitter posts are widely used for gender identification, although they may include ungrammatical structures, abbreviated words and meaningless sentence structures. In this study, it was attempted to determine gender from Turkish Twitter posts. The problem is handled as a classification task. In the study, machine learning methods (TF-IDF + SVM), deep learning methods (LSTM, CNN) and pre-trained language models for Turkish (BERT, DistilBert, Electra) were used. As a result of the experiments, Bert model with the word size of 128k provided the highest success (80.1%). This study also features as a detailed study for other text classification tasks.
Author profiling gender identification natural language processing language models text classification
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | MBD |
Authors | |
Publication Date | September 15, 2021 |
Submission Date | April 28, 2021 |
Published in Issue | Year 2021 |