Bu çalışmada öncelikle RapidMiner kullanılarak Twitter’da belirli kelimeleri içeren tweet verileri elde edildi, bu veriler ön işlemden geçirildi ve sonrasında tweetlerin konu modellemesi yapıldı. Ön işleme için “Search Twitter”, “Select Attributes”, “Nominal to Text” blokları kullanıldı. Ön işlemden geçen Twitter verileri “Tokenize”, “Aggregate” ve “Discretize” operatörleri kullanılarak analiz edildi. Tweetlerde en çok kullanılan kelimeler belirlendi ve kullanım sıklığına göre kelime grupları oluşturuldu. Daha sonra Twitter verilerine nasıl konu bazlı kümeleme yapılacağı anlatıldı. Bu işlem için Latent Dirichlet Allocation modelini kullanan “Extract Topics From Documents (LDA)” operatörü kullanıldı. Tweetlerde en fazla kullanılan kelimeler ve kullanıcı başına atılan tweet sayıları, grafik ve tablolarla incelendi, ayrıca konu modellemesi sonucunda elde edilen konuların kelime bulutu oluşturuldu.
RapidMiner Konu Modelleme Twitter Veri Analizi Veri Madenciliği
In this study, firstly, tweets containing specific words on the Twitter platform were obtained and pre-processed using the RapidMiner software. After that, the tweets are clustered based on the topic modeling approach. “Search Twitter”, “Select Attributes”, and “Nominal to Text” blocks were used for preprocessing. This preprocessed data is then analyzed using “Tokenize”, “Aggregate”, and “Discretize” operators. The most used words were determined, and tweets are grouped according to their frequencies. Then, it is explained how to perform topic-based modeling and clustering on Twitter data. “Extract Topics From Documents (LDA)” operator, which uses the Latent Dirichlet Allocation model, was used for this process. The most commonly used words in tweets, and the number of tweets per user were extracted and investigated via tables and graphical illustrations. In addition, the word cloud of each topic, obtained as a result of the topic modeling process, was created.
Birincil Dil | Türkçe |
---|---|
Konular | Kütüphane ve Bilgi Çalışmaları |
Bölüm | Hakemli Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 30 Haziran 2020 |
Gönderilme Tarihi | 2 Kasım 2019 |
Yayımlandığı Sayı | Yıl 2020 |