Year 2021,
, 31 - 41, 15.04.2021
Tilbe Korkmaz
,
Ali Çetinkaya
,
Hakan Aydın
,
Mehmet Ali Barışkan
References
- 1. Arroyo-Fernández, I., Méndez-Cruz, C. F., Sierra, G., Torres-Moreno, J. M, and Sidorov, G., Unsupervised sentence representations as word information series: Revisiting TF–IDF. Computer Speech & Language, 2019. 56: p. 107-129.
- 2. Kim, D., Seo, D., Cho, S., and Kang, P., Multi-co-training for document classification using various document representations: TF–IDF, LDA, and Doc2Vec. Information Sciences, 2019. 477: p. 15-29.
- 3. Koyun, A., and Afşin, E., Derin öğrenme ile iki boyutlu optik karakter tanıma. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 2017. 10(1): p. 11-14.
- 4. Yapıcı, M. M., Tekerek, A., and Topaloğlu, N., Literature review of deep learning research areas. Gazi Mühendislik Bilimleri Dergisi (GMBD), 2019. 5(3): p. 188-215.
- 5. Patil, T., Pandey, S., and Visrani, K., A review on basic deep learning technologies and applications. In Data Science and Intelligent Applications, 2020. pp. 565-573. Springer.
- 6. Calisan, M., and Sakar, C. O., Classification of short-texts by utilizing an external knowledge source. Journal of Science and Engineering, 2017. 19(57).
- 7. Grigorescu, S., Trasnea, B., Cocias, T., and Macesanu, G., A survey of deep learning techniques for autonomous driving. Journal of Field Robotics, 2020. 37(3), 362-386.
- 8. Küçük, D., and Arıcı, N., Doğal dil işlemede derin öğrenme uygulamaları üzerine bir literatür çalışması. Uluslararası Yönetim Bilişim Sistemleri ve Bilgisayar Bilimleri Dergisi, 2018. 2(2): p. 76-86.
- 9. Acı, Ç., and Çırak, A., Türkçe haber metinlerinin konvolüsyonel sinir ağları ve word2vec kullanılarak sınıflandırılması. Bilişim Teknolojileri Dergisi, 2019. 12(3): p. 219-228.
- 10. Ertam, F., Sosyal medya verileri için etkili bir sınıflandırma yaklaşımı. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 2017. 29(2): p. 67-73.
- 11. Sjarif, N. N. A., Azmi, N. F. M., Chuprat, S., Sarkan, H. M., Yahya, Y., and Sam, S. M., SMS spam message detection using term frequency-inverse document frequency and random forest algorithm. Procedia Computer Science, 2019. 161, p. 509-515.
- 12. MATLAB Deep Learning. [cited 2020 20 May]; Available from: https://www.mathworks.com/solutions/deep-learning.html
- 13. Şeker, A., Diri, B., and Balık, H. H., Derin öğrenme yöntemleri ve uygulamaları hakkında bir inceleme. Gazi Mühendislik Bilimleri Dergisi, 2017. 3(3): p. 47-64.
- 14. Hark, C., Uçkan, T., Seyyarer, E., and Karcı, A., Metin özetlemesi için düğüm merkezliklerine dayalı denetimsiz bir yaklaşım. Bitlis Eren Üniversitesi Fen Bilimleri Dergisi. 2019. 8(3): p. 1109-1118.
- 15. Güldal, H., and Çakici, Y., Ders yönetim sistemi yazılımı kullanıcı etkileşimlerinin sınıflandırma algoritmaları ile analizi. Journal Of Graduate School Of Social Sciences, 2017. 21(4).
- 16. Salur, M. U., Aydin, İ., and Karaköse, M. gömülü derin öğrenme ile tehdit içeren nesnelerin gerçek zamanda tespiti. Dümf Mühendislik Dergisi, 2019. 10(2): p. 497-509.
- 17. Machine learning platform. [cited 2020 7 May]; Available from: https://www.tensorflow.org
- 18. Bayram, F., Derin öğrenme tabanlı otomatik plaka tanıma. Politeknik Dergisi, 2020. 23(4): p. 955-960,
- 19. Sakarya, Ş., and Yılmaz, Ü. Derin öğrenme mimarisi kullanarak bist30 indeksinin tahmini. European Journal Of Educational And Social Sciences, 2019. 4(2): p. 106-121.
- 20. PyTorch Deep learning library. [cited 2020 20 May]; Available from: https://pytorch.org
- 21. Yıldırım, S., and Yıldız, T., Türkçe için karşılaştırmalı metin sınıflandırma analizi. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 2017. 24(5): p. 879-886.
- 22. Akdoğan, Ö., and Özel, S. A., Effects of feature extraction techniques on classification of turkish texts. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 2019. 34(3): p. 95-108.
- 23. Tezgider, M., Yıldız, B., and Aydın, G., Improving word representation by tuning word2vec parameters with deep learning model. In 2018 International Conference on Artificial Intelligence and Data Processing (IDAP), 2018. pp. 1-7. IEEE.
- 24. Çınar, A., Veri madenciliğinde siniflandirma algoritmalarinin performans değerlendirmesi ve r dili ile bir uygulama. Öneri Dergisi, 2019. 14(51): p. 90-111.
- 25. Özmen, E. P., and Özcan, T., Dolandiricilik tespiti üzerine melez siniflandirma ve regresyon ağaci uygulamasi. Yönetim Bilişim Sistemleri Dergisi, 2019. 5(2): p. 12-20.
- 26. Dündar, E. B., and Alpaydın, E., Learning word representations with deep neural networks for turkish. In 2019 27th Signal Processing and Communications Applications Conference (SIU), 2019. pp. 1-4. IEEE.
- 27. Yücel, A., and Köylü, M. K., Spam içerikli e-postalarin tespiti için bir metin madenciliği uygulamasi: terimlerin gama ilişki katsayisina dayali polarizasyonu. Uluslararası Yönetim Bilişim Sistemleri Ve Bilgisayar Bilimleri Dergisi, 2018. 2(2): p. 95-104.
- 28. Bilgin, M., Türkçe metinlerin siniflandirma başarisini artirmak için yeni bir yöntem önerisi. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 2019. 24(1): p. 125-136.
- 29. Demi̇r, Ö., Baban Chawai̇, A., and Doğan, B., Türkçe metinlerde sözlük tabanli yaklaşimla duygu analizi ve görselleştirme. PORTA. 2019; 1(2): p. 58-66.
- 30. Ertam, F., Deep learning based text classification with Web Scraping methods. In 2018 International Conference on Artificial Intelligence and Data Processing (IDAP), 2018. pp. 1-4. IEEE.
- 31. Thakkar, A., and Chaudhari, K., Predicting stock trend using an integrated term frequency–inverse document frequency-based feature weight matrix with neural networks. Applied Soft Computing, 2020. 106684.
- 32. Göker, H., and Tekedere, H., Fatih projesine yönelik görüşlerin metin madenciliği yöntemleri ile otomatik değerlendirilmesi. Bilişim Teknolojileri Dergisi, 2017. 10(3): p. 291-299.
- 33. Safali, Y., Nergiz, G., Avaroğlu, E., and Doğan, E., Deep learning based classification using academic studies in doc2vec model. In 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), 2019. pp. 1-5. IEEE.
- 34. Karakoç, E., and Yılmaz, B., Deep learning based abstractive turkish news summarization. In 2019 27th Signal Processing and Communications Applications Conference (SIU), 2019. pp. 1-4. IEEE.
- 35. Doğan, O., Türkiye’de veri madenciliği konusunda yapılan lisansüstü tezler üzerine bir araştırma. Gazi Universitesi İktisadi ve Idari Bilimler Fakültesi Dergisi, 2017. 19(3): p. 929-951
- 36. Pirana, G., Sertbaş, A., and Ensari, T., Sentence classification with deep learning method for virtual assistant applications. In 2019 3rd International Symposium On Multidisciplinary Studies And Innovative Technologies (Ismsit), 2019. pp. 1-5. IEEE.
- 37. Ayata, D., Saraçlar, M., and Özgür, A., Turkish tweet sentiment analysis with word embedding and machine learning. In 2017 25th Signal Processing and Communications Applications Conference (SIU), 2017. pp. 1-4. IEEE.
- 38. Nasim, Z., and Haider, S., Cluster analysis of urdu tweets. Journal of King Saud University-Computer and Information Sciences, 2020.
- 39. Bilgin, M., and Şentürk, İ. F., Danışmanlı ve yarı danışmanlı öğrenme kullanarak doküman vektörleri tabanlı tweetlerin duygu analizi. Balıkesir Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 2019. 21(2): p. 822-839.
- 40. Alpkoçak, A., Tocoglu, M. A., Çelikten, A., and Aygün, İ., Türkçe metinlerde duygu analizi için farklı makine öğrenmesi yöntemlerinin karşılaştırılması. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen Ve Mühendislik Dergisi, 2019. 21(63): p. 719-725.
- 41. Süzen, A. A., LSTM derin sinir ağları ile üniversite giriş sınavındaki matematik soru sayılarının konulara göre tahmini. Engineering Sciences, 2019. 14(3): p. 112-118.
- 42. Altan, G., DeepGraphNet: grafiklerin sınıflandırılmasında derin öğrenme modelleri. Avrupa Bilim ve Teknoloji Dergisi, 2019. (Özel Sayı): p. 319-327.
- 43. Doğan, F., and Türkoğlu, İ., Derin öğrenme modelleri ve uygulama alanlarına ilişkin bir derleme. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 2019. 10(2): p. 409-445.
- 44. Chouseinoglou, O., and Şahin, İ., Metin madenciliği, makine ve derin öğrenme algoritmaları ile web sayfalarının sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi, 2019. 5(2): p. 29-43.
- 45. Partal, T., Kahya, E., and Ciğizoğlu, K., Yağış verilerinin yapay sinir ağları ve dalgacık dönüşümü yöntemleri ile tahmini. İtüdergisi/D, 2008. 7(3): p. 73-85.
- 46. Arı, A., and Berberler, M. E., Yapay sinir ağları ile tahmin ve sınıflandırma problemlerinin çözümü için arayüz tasarımı. Acta Infologica, 2017. 1(2): p. 55-73.
- 47. Özcan, B., Kumru, P. Y., and Fığlalı, A., Forecasting operation times by using artificial intelligence. International Advanced Researches and Engineering Journal, 2018. 2(2): p. 109-116.
- 48. Al Qasem, O., Akour, M., and Alenezi, M. The influence of deep learning algorithms factors in software fault prediction. IEEE Access, 2020. 8, 63945-63960.
- 49. Fake News Dataset. [cited 2020 15 May]; Available from: https://www.datacamp.com/community/tutorials/scikit-learn-fake-news
- 50. Khan, J. Y., Khondaker, M., Islam, T., Iqbal, A., and Afroz, S., A benchmark study on machine learning methods for fake news detection. 2019. arXiv preprint arXiv:1905.04749.
Analysis of whether news on the Internet is real or fake by using deep learning methods and the TF-IDF algorithm
Year 2021,
, 31 - 41, 15.04.2021
Tilbe Korkmaz
,
Ali Çetinkaya
,
Hakan Aydın
,
Mehmet Ali Barışkan
Abstract
Internet use has become increasingly widespread nowadays. In addition, there is a significant increase in the amount of text content produced in digital media. However, the accuracy and inaccuracy of the news we read and the content produced in a large number are also unknown. In this study, classification and analysis of whether the news is real or not were done by using Deep Learning methods. For the English news, the data set created by Katharine Jarmul was used. The data set contained a total of 6336 news items. The distribution of this data set, which consisted of political and political news, was 50% fake and 50% real. The method used in text classification was Term Frequency - Inverse Document Frequency (TF-IDF). The classification was made with the data set used and 93.88% success and 6.12% error were obtained as a result of the analysis.
References
- 1. Arroyo-Fernández, I., Méndez-Cruz, C. F., Sierra, G., Torres-Moreno, J. M, and Sidorov, G., Unsupervised sentence representations as word information series: Revisiting TF–IDF. Computer Speech & Language, 2019. 56: p. 107-129.
- 2. Kim, D., Seo, D., Cho, S., and Kang, P., Multi-co-training for document classification using various document representations: TF–IDF, LDA, and Doc2Vec. Information Sciences, 2019. 477: p. 15-29.
- 3. Koyun, A., and Afşin, E., Derin öğrenme ile iki boyutlu optik karakter tanıma. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 2017. 10(1): p. 11-14.
- 4. Yapıcı, M. M., Tekerek, A., and Topaloğlu, N., Literature review of deep learning research areas. Gazi Mühendislik Bilimleri Dergisi (GMBD), 2019. 5(3): p. 188-215.
- 5. Patil, T., Pandey, S., and Visrani, K., A review on basic deep learning technologies and applications. In Data Science and Intelligent Applications, 2020. pp. 565-573. Springer.
- 6. Calisan, M., and Sakar, C. O., Classification of short-texts by utilizing an external knowledge source. Journal of Science and Engineering, 2017. 19(57).
- 7. Grigorescu, S., Trasnea, B., Cocias, T., and Macesanu, G., A survey of deep learning techniques for autonomous driving. Journal of Field Robotics, 2020. 37(3), 362-386.
- 8. Küçük, D., and Arıcı, N., Doğal dil işlemede derin öğrenme uygulamaları üzerine bir literatür çalışması. Uluslararası Yönetim Bilişim Sistemleri ve Bilgisayar Bilimleri Dergisi, 2018. 2(2): p. 76-86.
- 9. Acı, Ç., and Çırak, A., Türkçe haber metinlerinin konvolüsyonel sinir ağları ve word2vec kullanılarak sınıflandırılması. Bilişim Teknolojileri Dergisi, 2019. 12(3): p. 219-228.
- 10. Ertam, F., Sosyal medya verileri için etkili bir sınıflandırma yaklaşımı. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 2017. 29(2): p. 67-73.
- 11. Sjarif, N. N. A., Azmi, N. F. M., Chuprat, S., Sarkan, H. M., Yahya, Y., and Sam, S. M., SMS spam message detection using term frequency-inverse document frequency and random forest algorithm. Procedia Computer Science, 2019. 161, p. 509-515.
- 12. MATLAB Deep Learning. [cited 2020 20 May]; Available from: https://www.mathworks.com/solutions/deep-learning.html
- 13. Şeker, A., Diri, B., and Balık, H. H., Derin öğrenme yöntemleri ve uygulamaları hakkında bir inceleme. Gazi Mühendislik Bilimleri Dergisi, 2017. 3(3): p. 47-64.
- 14. Hark, C., Uçkan, T., Seyyarer, E., and Karcı, A., Metin özetlemesi için düğüm merkezliklerine dayalı denetimsiz bir yaklaşım. Bitlis Eren Üniversitesi Fen Bilimleri Dergisi. 2019. 8(3): p. 1109-1118.
- 15. Güldal, H., and Çakici, Y., Ders yönetim sistemi yazılımı kullanıcı etkileşimlerinin sınıflandırma algoritmaları ile analizi. Journal Of Graduate School Of Social Sciences, 2017. 21(4).
- 16. Salur, M. U., Aydin, İ., and Karaköse, M. gömülü derin öğrenme ile tehdit içeren nesnelerin gerçek zamanda tespiti. Dümf Mühendislik Dergisi, 2019. 10(2): p. 497-509.
- 17. Machine learning platform. [cited 2020 7 May]; Available from: https://www.tensorflow.org
- 18. Bayram, F., Derin öğrenme tabanlı otomatik plaka tanıma. Politeknik Dergisi, 2020. 23(4): p. 955-960,
- 19. Sakarya, Ş., and Yılmaz, Ü. Derin öğrenme mimarisi kullanarak bist30 indeksinin tahmini. European Journal Of Educational And Social Sciences, 2019. 4(2): p. 106-121.
- 20. PyTorch Deep learning library. [cited 2020 20 May]; Available from: https://pytorch.org
- 21. Yıldırım, S., and Yıldız, T., Türkçe için karşılaştırmalı metin sınıflandırma analizi. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 2017. 24(5): p. 879-886.
- 22. Akdoğan, Ö., and Özel, S. A., Effects of feature extraction techniques on classification of turkish texts. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 2019. 34(3): p. 95-108.
- 23. Tezgider, M., Yıldız, B., and Aydın, G., Improving word representation by tuning word2vec parameters with deep learning model. In 2018 International Conference on Artificial Intelligence and Data Processing (IDAP), 2018. pp. 1-7. IEEE.
- 24. Çınar, A., Veri madenciliğinde siniflandirma algoritmalarinin performans değerlendirmesi ve r dili ile bir uygulama. Öneri Dergisi, 2019. 14(51): p. 90-111.
- 25. Özmen, E. P., and Özcan, T., Dolandiricilik tespiti üzerine melez siniflandirma ve regresyon ağaci uygulamasi. Yönetim Bilişim Sistemleri Dergisi, 2019. 5(2): p. 12-20.
- 26. Dündar, E. B., and Alpaydın, E., Learning word representations with deep neural networks for turkish. In 2019 27th Signal Processing and Communications Applications Conference (SIU), 2019. pp. 1-4. IEEE.
- 27. Yücel, A., and Köylü, M. K., Spam içerikli e-postalarin tespiti için bir metin madenciliği uygulamasi: terimlerin gama ilişki katsayisina dayali polarizasyonu. Uluslararası Yönetim Bilişim Sistemleri Ve Bilgisayar Bilimleri Dergisi, 2018. 2(2): p. 95-104.
- 28. Bilgin, M., Türkçe metinlerin siniflandirma başarisini artirmak için yeni bir yöntem önerisi. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 2019. 24(1): p. 125-136.
- 29. Demi̇r, Ö., Baban Chawai̇, A., and Doğan, B., Türkçe metinlerde sözlük tabanli yaklaşimla duygu analizi ve görselleştirme. PORTA. 2019; 1(2): p. 58-66.
- 30. Ertam, F., Deep learning based text classification with Web Scraping methods. In 2018 International Conference on Artificial Intelligence and Data Processing (IDAP), 2018. pp. 1-4. IEEE.
- 31. Thakkar, A., and Chaudhari, K., Predicting stock trend using an integrated term frequency–inverse document frequency-based feature weight matrix with neural networks. Applied Soft Computing, 2020. 106684.
- 32. Göker, H., and Tekedere, H., Fatih projesine yönelik görüşlerin metin madenciliği yöntemleri ile otomatik değerlendirilmesi. Bilişim Teknolojileri Dergisi, 2017. 10(3): p. 291-299.
- 33. Safali, Y., Nergiz, G., Avaroğlu, E., and Doğan, E., Deep learning based classification using academic studies in doc2vec model. In 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), 2019. pp. 1-5. IEEE.
- 34. Karakoç, E., and Yılmaz, B., Deep learning based abstractive turkish news summarization. In 2019 27th Signal Processing and Communications Applications Conference (SIU), 2019. pp. 1-4. IEEE.
- 35. Doğan, O., Türkiye’de veri madenciliği konusunda yapılan lisansüstü tezler üzerine bir araştırma. Gazi Universitesi İktisadi ve Idari Bilimler Fakültesi Dergisi, 2017. 19(3): p. 929-951
- 36. Pirana, G., Sertbaş, A., and Ensari, T., Sentence classification with deep learning method for virtual assistant applications. In 2019 3rd International Symposium On Multidisciplinary Studies And Innovative Technologies (Ismsit), 2019. pp. 1-5. IEEE.
- 37. Ayata, D., Saraçlar, M., and Özgür, A., Turkish tweet sentiment analysis with word embedding and machine learning. In 2017 25th Signal Processing and Communications Applications Conference (SIU), 2017. pp. 1-4. IEEE.
- 38. Nasim, Z., and Haider, S., Cluster analysis of urdu tweets. Journal of King Saud University-Computer and Information Sciences, 2020.
- 39. Bilgin, M., and Şentürk, İ. F., Danışmanlı ve yarı danışmanlı öğrenme kullanarak doküman vektörleri tabanlı tweetlerin duygu analizi. Balıkesir Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 2019. 21(2): p. 822-839.
- 40. Alpkoçak, A., Tocoglu, M. A., Çelikten, A., and Aygün, İ., Türkçe metinlerde duygu analizi için farklı makine öğrenmesi yöntemlerinin karşılaştırılması. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen Ve Mühendislik Dergisi, 2019. 21(63): p. 719-725.
- 41. Süzen, A. A., LSTM derin sinir ağları ile üniversite giriş sınavındaki matematik soru sayılarının konulara göre tahmini. Engineering Sciences, 2019. 14(3): p. 112-118.
- 42. Altan, G., DeepGraphNet: grafiklerin sınıflandırılmasında derin öğrenme modelleri. Avrupa Bilim ve Teknoloji Dergisi, 2019. (Özel Sayı): p. 319-327.
- 43. Doğan, F., and Türkoğlu, İ., Derin öğrenme modelleri ve uygulama alanlarına ilişkin bir derleme. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 2019. 10(2): p. 409-445.
- 44. Chouseinoglou, O., and Şahin, İ., Metin madenciliği, makine ve derin öğrenme algoritmaları ile web sayfalarının sınıflandırılması. Yönetim Bilişim Sistemleri Dergisi, 2019. 5(2): p. 29-43.
- 45. Partal, T., Kahya, E., and Ciğizoğlu, K., Yağış verilerinin yapay sinir ağları ve dalgacık dönüşümü yöntemleri ile tahmini. İtüdergisi/D, 2008. 7(3): p. 73-85.
- 46. Arı, A., and Berberler, M. E., Yapay sinir ağları ile tahmin ve sınıflandırma problemlerinin çözümü için arayüz tasarımı. Acta Infologica, 2017. 1(2): p. 55-73.
- 47. Özcan, B., Kumru, P. Y., and Fığlalı, A., Forecasting operation times by using artificial intelligence. International Advanced Researches and Engineering Journal, 2018. 2(2): p. 109-116.
- 48. Al Qasem, O., Akour, M., and Alenezi, M. The influence of deep learning algorithms factors in software fault prediction. IEEE Access, 2020. 8, 63945-63960.
- 49. Fake News Dataset. [cited 2020 15 May]; Available from: https://www.datacamp.com/community/tutorials/scikit-learn-fake-news
- 50. Khan, J. Y., Khondaker, M., Islam, T., Iqbal, A., and Afroz, S., A benchmark study on machine learning methods for fake news detection. 2019. arXiv preprint arXiv:1905.04749.