Digital Content Analysis with Text Mining Techniques in the Context of Information Management
Year 2022,
Volume: 36 Issue: 4, 472 - 494, 30.12.2022
Levent Kurt
,
Oya Gürdal
,
İnci Batmaz
Abstract
Purpose: In this study, a content analysis of a platform that publishes content on the internet about blockchain technologies was made. The study aims to determine the factors (word and word string) affecting the reading rate of the digital content -on a titles basis- posted by the platform on Facebook.
Method: 500 out of 2206 examples of content published between the specified dates were chosen randomly. The titles of the content were processed using standard text mining techniques and a new approach specific to the problem in this study on python programming language and then two different datasets were collected. The datasets were analysed using multiple linear regression.
Findings: As a result of the analysis, it was discovered that some words and phrases used in the content titles affected the reading rate of the content. In addition, it has been determined that the new approach provides higher performance than standard text mining techniques.
Implications: In this study, valuable information was obtained by processing raw data. As a result of the study, the theory was compared with the practice, and it was observed consistent results. It is determined that the new approach can be used effectively in similar text mining problems.
Originality: The research relying on text mining was handled with a new approach on the basis of the content title. In this respect, the study has a unique quality.
References
- Aggarwal, C.C. ve Zhai, C. (2012). Mining Text Data. Springer. https://doi.org/10.1007/978-1-4614-3223-4_1
- Albayrak, A.S. (2006). Uygulamalı Çok Değişkenli İstatistik Teknikleri. Ankara: Asil Yayın.
- Altınok, G., Karagöz, P., and Batmaz, İ. (2021). Learning to Rank by Using Multivariate Adaptive Regression Splines and Conic Multivariate Adaptive Regression Splines. Computational Intelligence, 37, 371-408. doi: 10.1111/coin.12413.
- Batmaz, İ. (2021). Doğrusal Regresyon. İnci Batmaz’a ait ders notları. Orta Doğu Teknik Üniversitesi İstatistik Bölümü, Ankara.
- Batmaz, İ., Danışoğlu, S., Kartal-Koç, E., and C. Yazıcı. (2017). A Data Mining Application to Deposit Pricing: Main Determinants and Prediction Models. Applied Soft Computing (for Business Analytics), 60, 808-819. https://doi.org/10.1016/j.asoc.2017.07.047
- Batmaz, İ., Karagöz, P. and G. Serdar. (2017). A Comparative Study on Learning to Rank with Computational Methods. 2017 IEEE International Conference on Big Data (IEEE Big Data 2017). Boston, USA. DOI: 10.1109/BigData.2017.8258135
- Berson, A., Smith, S.J. ve Thearling, K. (1999). Building Data Mining Applications for CRM. New York: McGraw-Hill.
- Bifet, A. (2013). Mining Big Data in Real Time. Informatica, 37(1), 15-20.
- Choi, S., Shin, H. ve Kang, S-S. (2021). Predicting Audience-Rated News Quality: Using Survey, Text Mining, and Neural Network Methods. Digital Journalism, 9(1), 84-105. https://doi.org/10.1080/21670811.2020.1842777
- Çakmak, T. ve Eroğlu, Ş. (2020). Sosyal Medyada Kullanıcı Etkileşimi ve İçerik Kategorizasyonu: Ankara’daki Halk Kütüphanelerinin Facebook Gönderilerinin Analizi. Türk Kütüphaneciliği, 34(2), 160-186. https://doi.org/10.24146/tk.706882
- Dawei, J. (2011). The Application of Data Mining in Knowledge Management. 2011 International Conference on Management of e-Commerce and e-Government, IEEE Computer Society, 7-9. https://doi.org/10.1109/ICMeCG.2011.58
- Doğan, K. ve Arslantekin, S. (2016). Büyük Veri: Önemi, Yapısı ve Günümüzdeki Durum. DTCF Dergisi, 56(1), 15-36. doi: 10.1501/Dtcfder_0000001461
- Englmeier, K. (2021). The Role of Text Mining in Mitigating the Threats from Fake News and Misinformation in Times of Corona. Procedia Computer Science, 181, 149–156. https://doi.org/10.1016/j.procs.2021.01.115
- Fayyad, U., Piatetsky-Shapiro, G. & Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databases. AI Magazine, 17(3), 37-54. https://doi.org/10.1609/aimag.v17i3.1230
- Jo, T. (2019). Text Mining: Concepts, Implementation, and Big Data Challenge. Springer International Publishing. https://doi.org/10.1007/978-3-319-91815-0
- Kanji, G. K. (2006). 100 Statistical Tests. California: SAGE.
- Karasar, N. (2022). Bilimsel Araştırma Yöntemi: Kavramlar İlkeler Teknikler. Ankara: Nobel.
- Larose, D.T. ve Larose, C.D. (2014). Discovering Knowledge in Data: An Introduction to Data Mining. (2. Edition). Hoboken, New Jersey: John Wiley & Sons Inc.
- Lyu, F. ve Choi, J. (2020). The Forecasting Sales Volume and Satisfaction of Organic Products through Text Mining on Web Customer Reviews. Sustainability, 12, 4383. https://doi.org/10.3390/su12114383
- Montgomery, D. C., Peck, E. A. ve Vining, G. G. (2013). Doğrusal Regresyon Analizine Giriş (5. Baskı). (M.A. Erar, Çev.) Nobel (2012).
- Natarajan, M. (2005). Role of Text Mining in Information Extraction and Information Management. DESIDOC Bulletin of Information Technology, 25(4), 31-38. http://dx.doi.org/10.14429/dbit.25.4.3663
- Nosakhare, U.H. ve Bright, A.F. (2017). Evaluation of Techniques for Univariate Normality Test Using Monte Carlo Simulation. American Journal of Theoretical and Applied Statistics, 6(5-1), 51-61. DOI: 10.11648/j.ajtas.s.2017060501.18
- Özdemirci, F. (2018). Sağlık Bilgi Sistemleri Yönetimi ve Toplumsal Bellek/Gelecek Açısından Değerlendirilmesi. Bilgi Yönetimi Dergisi, 1(2), 149-155. https://dergipark.org.tr/tr/pub/by/issue/40526/500294
- Pektaş, A. O. (2013). SPSS İle Veri Madenciliği. İstanbul: Dikeyeksen.
- Savin, N. E. ve White, K. J. (1977). The Durbin-Watson Test for Serial Correlation with Extreme Sample Sizes or Many Regressors. Econometrica, 45(8), 1989–1996. https://doi.org/10.2307/1914122
- Schonlau, M., Guenther, N. ve Sucholutsky, I. (2017). Text Mining with N-Gram Variables. The Stata Journal, 17(4), 866-881.
- Silwattananusarn, T. ve Tuamsuk, K. (2012). Data Mining and Its Applications for Knowledge Management : A Literature Review from 2007 to 2012. International Journal of Data Mining & Knowledge Management Process (IJDKP), 2 (5), 13-24. doi: 10.5121/ijdkp.2012.2502 13
- Tan, Z., He, C., Fang, Y., Ge, B. ve Xiao, W. (2018). Title-Based Extraction of News Contents for Text Mining. IEEE Access, 6, 64085-64095. DOI: 10.1109/ACCESS.2018.2877592
- Trzepiecinski, T., Szpunar, M. ve Kascak, L. (2021) Modeling of Friction Phenomena of Ti-6Al-4V Sheets Based on Backward Elimination Regression and Multi-Layer Artificial Neural Networks. Materials, 14, 2570. https://doi.org/10.3390/ma14102570
- Tseng, W- T. (2020). Mining Text in Online News Reports of COVID-19 Virus: Key Phrase Extractions and Graphic Modeling. English Teaching & Learning, 44, 439-449. https://doi.org/10.1007/s42321-020-00070-2
- Uysal, M. ve Günay, S. (2001). Durbin-Watson Ölçütüne Göre Kararsızlık Bölgesinde Bulunan Negatif Otokorelasyon İçin Bazı Testler. Anadolu Üniversitesi Bilim ve Teknoloji Dergisi, 2(2), 277-284. https://earsiv.anadolu.edu.tr/xmlui/handle/11421/802
- Wang, H. ve Wang, S. (2008). A Knowledge Management Approach to Data Mining Process for Business Intelligence. Industrial Management & Data Systems, 108(5), 622-634. https://doi.org/10.1108/02635570810876750
- Wang, Z.H. ve Zou, Z.J. (2018). Quantifying Multicollinearity in Ship Manoeuvring Modeling by Variance Inflation Factor. In Proceedings of the ASME 2018 37th International Conference on Ocean, Offshore and Arctic Engineering. https://doi.org/10.1115/OMAE2018-77121
- Xiong, S., Lu, S., Shang, F., Li, X., Yan, J. ve Cen, K. (2021). Online Predicting PCDD/F Emission By Formation Pathway İdentification Clustering and Box-Cox Transformation. Chemosphere, 274. https://doi.org/10.1016/j.chemosphere.2021.129780
Bilgi Yönetimi Bağlamında Metin Madenciliği Teknikleri ile Dijital İçerik Analizi
Year 2022,
Volume: 36 Issue: 4, 472 - 494, 30.12.2022
Levent Kurt
,
Oya Gürdal
,
İnci Batmaz
Abstract
Amaç: Bu çalışmada, blockchain teknolojileri konusunda internet üzerinde içerik yayınlayan bir platformun içerik analizi yapılmıştır. Araştırmanın amacı, platformun Facebook’ta paylaştığı içerikler için başlık bazında okunma oranını etkileyen faktörlerin (kelime ve kelime gruplarının) tespit edilmesidir.
Yöntem: Araştırma sınırlılıkları kapsamında belirlenen tarih aralığında yayınlanan 2206 içerikten 500 tanesi rastgele seçilmiştir. İçeriklerin başlıkları Python programlama dili kullanılarak bu çalışmadaki probleme özel olarak farklı bir yaklaşımla ve standart metin madenciliği teknikleriyle çözümlenmiş ve metinler üzerinden yapısallaştırılmış iki farklı veri kümesi elde edilmiştir. Elde edilen iki farklı veri kümesi üzerinde çoklu doğrusal regresyon yöntemi kullanılarak analizler gerçekleştirilmiştir.
Bulgular: Analizler sonucunda içerik başlıklarında kullanılan bazı kelime ve kelime gruplarının, içeriklerin okunma oranını etkilediği tespit edilmiştir. Ayrıca uygulanan farklı yaklaşımın standart metin madenciliği tekniklerine göre daha yüksek performans sağladığı belirlenmiştir.
Sonuç: Araştırmada ham veri işlenerek değerli bilgiler elde edilmiştir. Teorik olarak ortaya çıkarılan bilgiler, uygulama pratiğiyle karşılaştırılmış ve tutarlı sonuçlar elde edildiği gözlemlenmiştir. Uygulanan farklı yaklaşımın etkili bir şekilde benzer metin madenciliği problemlerinde kullanılabileceği saptanmıştır.
Özgünlük: Araştırmada içerik başlığı bazında yapılan metin madenciliğine dayalı analiz, farklı bir yaklaşımla ele alınmıştır. Bu yönüyle çalışma özgün bir nitelik taşımaktadır.
References
- Aggarwal, C.C. ve Zhai, C. (2012). Mining Text Data. Springer. https://doi.org/10.1007/978-1-4614-3223-4_1
- Albayrak, A.S. (2006). Uygulamalı Çok Değişkenli İstatistik Teknikleri. Ankara: Asil Yayın.
- Altınok, G., Karagöz, P., and Batmaz, İ. (2021). Learning to Rank by Using Multivariate Adaptive Regression Splines and Conic Multivariate Adaptive Regression Splines. Computational Intelligence, 37, 371-408. doi: 10.1111/coin.12413.
- Batmaz, İ. (2021). Doğrusal Regresyon. İnci Batmaz’a ait ders notları. Orta Doğu Teknik Üniversitesi İstatistik Bölümü, Ankara.
- Batmaz, İ., Danışoğlu, S., Kartal-Koç, E., and C. Yazıcı. (2017). A Data Mining Application to Deposit Pricing: Main Determinants and Prediction Models. Applied Soft Computing (for Business Analytics), 60, 808-819. https://doi.org/10.1016/j.asoc.2017.07.047
- Batmaz, İ., Karagöz, P. and G. Serdar. (2017). A Comparative Study on Learning to Rank with Computational Methods. 2017 IEEE International Conference on Big Data (IEEE Big Data 2017). Boston, USA. DOI: 10.1109/BigData.2017.8258135
- Berson, A., Smith, S.J. ve Thearling, K. (1999). Building Data Mining Applications for CRM. New York: McGraw-Hill.
- Bifet, A. (2013). Mining Big Data in Real Time. Informatica, 37(1), 15-20.
- Choi, S., Shin, H. ve Kang, S-S. (2021). Predicting Audience-Rated News Quality: Using Survey, Text Mining, and Neural Network Methods. Digital Journalism, 9(1), 84-105. https://doi.org/10.1080/21670811.2020.1842777
- Çakmak, T. ve Eroğlu, Ş. (2020). Sosyal Medyada Kullanıcı Etkileşimi ve İçerik Kategorizasyonu: Ankara’daki Halk Kütüphanelerinin Facebook Gönderilerinin Analizi. Türk Kütüphaneciliği, 34(2), 160-186. https://doi.org/10.24146/tk.706882
- Dawei, J. (2011). The Application of Data Mining in Knowledge Management. 2011 International Conference on Management of e-Commerce and e-Government, IEEE Computer Society, 7-9. https://doi.org/10.1109/ICMeCG.2011.58
- Doğan, K. ve Arslantekin, S. (2016). Büyük Veri: Önemi, Yapısı ve Günümüzdeki Durum. DTCF Dergisi, 56(1), 15-36. doi: 10.1501/Dtcfder_0000001461
- Englmeier, K. (2021). The Role of Text Mining in Mitigating the Threats from Fake News and Misinformation in Times of Corona. Procedia Computer Science, 181, 149–156. https://doi.org/10.1016/j.procs.2021.01.115
- Fayyad, U., Piatetsky-Shapiro, G. & Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databases. AI Magazine, 17(3), 37-54. https://doi.org/10.1609/aimag.v17i3.1230
- Jo, T. (2019). Text Mining: Concepts, Implementation, and Big Data Challenge. Springer International Publishing. https://doi.org/10.1007/978-3-319-91815-0
- Kanji, G. K. (2006). 100 Statistical Tests. California: SAGE.
- Karasar, N. (2022). Bilimsel Araştırma Yöntemi: Kavramlar İlkeler Teknikler. Ankara: Nobel.
- Larose, D.T. ve Larose, C.D. (2014). Discovering Knowledge in Data: An Introduction to Data Mining. (2. Edition). Hoboken, New Jersey: John Wiley & Sons Inc.
- Lyu, F. ve Choi, J. (2020). The Forecasting Sales Volume and Satisfaction of Organic Products through Text Mining on Web Customer Reviews. Sustainability, 12, 4383. https://doi.org/10.3390/su12114383
- Montgomery, D. C., Peck, E. A. ve Vining, G. G. (2013). Doğrusal Regresyon Analizine Giriş (5. Baskı). (M.A. Erar, Çev.) Nobel (2012).
- Natarajan, M. (2005). Role of Text Mining in Information Extraction and Information Management. DESIDOC Bulletin of Information Technology, 25(4), 31-38. http://dx.doi.org/10.14429/dbit.25.4.3663
- Nosakhare, U.H. ve Bright, A.F. (2017). Evaluation of Techniques for Univariate Normality Test Using Monte Carlo Simulation. American Journal of Theoretical and Applied Statistics, 6(5-1), 51-61. DOI: 10.11648/j.ajtas.s.2017060501.18
- Özdemirci, F. (2018). Sağlık Bilgi Sistemleri Yönetimi ve Toplumsal Bellek/Gelecek Açısından Değerlendirilmesi. Bilgi Yönetimi Dergisi, 1(2), 149-155. https://dergipark.org.tr/tr/pub/by/issue/40526/500294
- Pektaş, A. O. (2013). SPSS İle Veri Madenciliği. İstanbul: Dikeyeksen.
- Savin, N. E. ve White, K. J. (1977). The Durbin-Watson Test for Serial Correlation with Extreme Sample Sizes or Many Regressors. Econometrica, 45(8), 1989–1996. https://doi.org/10.2307/1914122
- Schonlau, M., Guenther, N. ve Sucholutsky, I. (2017). Text Mining with N-Gram Variables. The Stata Journal, 17(4), 866-881.
- Silwattananusarn, T. ve Tuamsuk, K. (2012). Data Mining and Its Applications for Knowledge Management : A Literature Review from 2007 to 2012. International Journal of Data Mining & Knowledge Management Process (IJDKP), 2 (5), 13-24. doi: 10.5121/ijdkp.2012.2502 13
- Tan, Z., He, C., Fang, Y., Ge, B. ve Xiao, W. (2018). Title-Based Extraction of News Contents for Text Mining. IEEE Access, 6, 64085-64095. DOI: 10.1109/ACCESS.2018.2877592
- Trzepiecinski, T., Szpunar, M. ve Kascak, L. (2021) Modeling of Friction Phenomena of Ti-6Al-4V Sheets Based on Backward Elimination Regression and Multi-Layer Artificial Neural Networks. Materials, 14, 2570. https://doi.org/10.3390/ma14102570
- Tseng, W- T. (2020). Mining Text in Online News Reports of COVID-19 Virus: Key Phrase Extractions and Graphic Modeling. English Teaching & Learning, 44, 439-449. https://doi.org/10.1007/s42321-020-00070-2
- Uysal, M. ve Günay, S. (2001). Durbin-Watson Ölçütüne Göre Kararsızlık Bölgesinde Bulunan Negatif Otokorelasyon İçin Bazı Testler. Anadolu Üniversitesi Bilim ve Teknoloji Dergisi, 2(2), 277-284. https://earsiv.anadolu.edu.tr/xmlui/handle/11421/802
- Wang, H. ve Wang, S. (2008). A Knowledge Management Approach to Data Mining Process for Business Intelligence. Industrial Management & Data Systems, 108(5), 622-634. https://doi.org/10.1108/02635570810876750
- Wang, Z.H. ve Zou, Z.J. (2018). Quantifying Multicollinearity in Ship Manoeuvring Modeling by Variance Inflation Factor. In Proceedings of the ASME 2018 37th International Conference on Ocean, Offshore and Arctic Engineering. https://doi.org/10.1115/OMAE2018-77121
- Xiong, S., Lu, S., Shang, F., Li, X., Yan, J. ve Cen, K. (2021). Online Predicting PCDD/F Emission By Formation Pathway İdentification Clustering and Box-Cox Transformation. Chemosphere, 274. https://doi.org/10.1016/j.chemosphere.2021.129780