Futbol Verilerinin Karar Ağaçları ve Lojistik Regresyon Yöntemleri ile İncelenmesi

Duygu Topçu; Özgül Vupa Çilengiroğlu

doi:10.25307/jssr.978449

Research Article

Futbol Verilerinin Karar Ağaçları ve Lojistik Regresyon Yöntemleri ile İncelenmesi

Year 2021, Volume: 6 Issue: 2, 491 - 503, 31.12.2021

Duygu Topçu , Özgül Vupa Çilengiroğlu

https://doi.org/10.25307/jssr.978449

Cited By: 1

Abstract

Futbol dünyada ve Türkiye'de en çok takip edilen sporlardan biridir. Futbolun bu yaygınlık durumu, bilgi teknolojilerinde kullanılmakta ve gelişen veri bilimi ile birlikte maç istatistikleri kolay bir biçimde saptanabilmektedir. Futbol müsabakalarında en çok ilgilenilen konu ise maç sonucudur. Maç sonucunu etkileyen birçok farklı kriter (atılan gol sayısı, takımın aldığı kart sayısı, hava durumu, deplasmanda oynamak vb.) bulunmaktadır. Bu çalışmada Türkiye Futbol Federasyonu Süper Ligi 2019-2020 ve 2020-2021 sezonlarında oynanan karşılaşmalardan elde edilen veriler kullanılmıştır. Takımların kazanma ve kaybetme durumları sınıflandırma ve karar ağacı yöntemleri ile modellenmesi ise çalışmanın temel amacını oluşturmaktadır. Oynanan maçlarda ev sahibi ve rakip takımın aldığı kırmızı veya sarı kartlar, takımlarda yer alan yabancı oyuncu sayıları ve atılan gol sayıları kategorik bir biçime getirilerek bağımsız değişkenler olarak belirlenmiştir. Bu değişkenlere bağlı olarak ev sahibi takımın kazanma veya kaybetme durumu Lojistik Regresyon ve Karar Ağacı (CART, QUEST ve CHAID) algoritmaları kullanılarak modellenmiştir. Çalışma kapsamında altı ayrı model oluşturulmuştur. Oluşturulan modellerin doğruluk yüzdeleri, duyarlılıkları, seçicilikleri ve F-skor değerleri karşılaştırılarak en iyi modelin karar ağaçlarından %67.6’lık doğruluk yüzdesi ile CART algoritması olduğuna karar verilmiştir. Bu modelde yer alan rakip kırmızı kart durumu ile ofansif ve defansif güçlerin takımın kazanmasında ya da kaybetmesinde önemli olduğu tespit edilmiştir. Ayrıca futbol verilerinin modellenmesinde makine öğrenim algoritmalarının kullanılabileceği de gösterilmiştir.

Keywords

Futbol, Lojistik Regresyon, Karar Ağaçları Algoritmaları

References

Breiman, L., Freidman, J.H., Olshen, R. A. & Stone, C.J. (1984). Classification and regression trees (1. baskı). Boca Raton, USA: Taylor&Francis Group, Chapman and Hall.
Carling, C., Williams, A. M. & Reilly, T. (2005). Handbook of soccer match analysis: a Systematic approach to improving performance (1. baskı). New York, USA: Routledge.
Coşkuner, Z., Büyükçelebi, H. ve Kurak, K. (2020). Türkiye Süper Ligi’ndeki oyun içi değişkenlerin analizi. Germenica Beden Eğitimi ve Spor Bilimleri Dergisi, 1(1), 46-54.
Çalış, A. ve Kayapınar, S. (2014). Veri madenciliğinde karar ağacı algoritmaları ile bilgisayar ve internet güvenliği üzerine bir uygulama. Endüstri Mühendisliği Dergisi, 25(3-4), 2-19.
Díaz-Pérez, F. & Cejas, B. (2016). CHAID algorithm as an appropriate analytical method for tourism market segmentation. Journal of Destination Marketing & Management, 5(3), 275-282. https://doi.org/10.1016/j.jdmm.2016.01.006
Han, J., Kamber, M. & Pei, J. (2012). Data mining: concepts and techniques (3. baskı). MA, USA: Morgan Kaufmann Publishers.
Hucaljuk, J., & Rakipović, A. (2011, May). Predicting football scores using machine learning techniques. In 2011 Proceedings of the 34th International Convention MIPRO (pp. 1623-1627). IEEE.
Karaoğlu, B. (2015). Makine öğrenmesi ile spor karşılaşmalarının modellenmesi. EMO Bilimsel Dergi, 5(9), 1-5.
Kuzey, C. (2012). Veri madenciliğinde destek vektör makinaları ve karar ağaçları yöntemlerini kullanarak bilgi çalışanlarının kurum performansı üzerine etkisinin ölçülmesi ve bir uygulama. Yayımlanmamış Doktora Tezi, İstanbul Üniversitesi, Sosyal Bilimler Enstitüsü, İstanbul.
Michie, D., Spiegelhalter, D.J. & Taylor, C.C. (1994). Machine learning, neural and statistical classification (1. baskı). New York, USA: Ellis Horwood series, Prentice Hall.
Oğuzlar, A. (2010). CART analizi ile hanehalkı işgücü anketi sonuçlarının özetlenmesi. Atatürk Üniversitesi İktisadi ve İdari Bilimler Dergisi, 18(3-4), 79-90.
Özekes, S. (2003). Veri madenciliği modelleri ve uygulama alanları. İstanbul Ticaret Üniversitesi Dergisi, 2(3), 65-82.
Prasetio, D. & Harlili, D. (2016). Predicting football match results with logistic regression. In 2016 International Conference On Advanced Informatics: Concepts, Theory And Application (ICAICTA) (pp. 1-5). IEEE. SPSS. (2001). Statistical package for the social sciences. USA: SPSS Inc.
Şenel, S. ve Alatlı, B. (2014). Lojistik regresyon analizinin kullanıldığı makaleler üzerine bir inceleme. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 5(1), 35-52.
Tabachnick, B. G. & Fidell, L. S. (1996). Using multivariate statistics (3. baskı). New York, USA: Harper Collins College Publishers.
TFF. (2021). Türkiye Futbol Federasyonu, https://www.tff.org/, Son Erişim Tarihi: 3 Ağustos 2021.
Wu, X. & Kumar, V. (2009). CART: Classification and regression trees, top ten algorithms in data mining (1. baskı). New York: Chapman and Hall.
Yavuz, A. ve Vupa Çilengiroğlu, Ö. (2020). Lojistik regresyon ve CART yöntemlerinin tahmin edici performanslarının yaşam memnuniyeti verileri için karşılaştırılması. Avrupa Bilim ve Teknoloji Dergisi, (18), 719-727.
Zheng H., Chen L., Han X., Zhao X. & Ma Y. (2009). Classification and regression tree (CART) for analysis of soybean yield variability among fields in Northeast China: The importance of phosphorus application rates under drought conditions. Agriculture, Ecosystems & Environment, 132, 98-105.

Analysis of Football Data with Decision Trees and Logistic Regression Methods

Year 2021, Volume: 6 Issue: 2, 491 - 503, 31.12.2021

Duygu Topçu , Özgül Vupa Çilengiroğlu

https://doi.org/10.25307/jssr.978449

Cited By: 1

Abstract

Football is one of the most followed sports in the world and Turkey. This prevalence of football is used in information technologies and match statistics can be determined easily with the developing data science. The most important issue in football competitions is the match result. There are many different criteria (the number of goals scored, the number of cards the team has received, the weather, play away, etc.) that affect the match result. The data obtained from the matches played in the Turkish Football Federation Super League 2019-2020 and 2020-2021 seasons were used. The main purpose of the study is to model the winning and losing situations of the teams with classification and decision tree methods. In the matches played, the red or yellow cards received by the host and the rival team, the number of foreign players in the teams and the number of goals scored were determined as independent variables by bringing them into a categorical format. Depending on these variables, the winning or losing situation of the home team is modeled using Logistic Regression and Decision Tree (CART, QUEST and CHAID) algorithms. Six different models were created within the scope of the study. By comparing the accuracy percentages, sensitivities, specifity and F-score values of the models created, it was decided that the best model was the CART algorithm with an accuracy percentage of 67.6% from the decision trees. It has been determined that the rival's red card situation and offensive and defensive powers in this model are important for the team to win or lose. It has also been shown that machine learning algorithms can be used in modeling football data.

Keywords

Football, Logistic Regression, Desicions Tree Algorithms

References

Breiman, L., Freidman, J.H., Olshen, R. A. & Stone, C.J. (1984). Classification and regression trees (1. baskı). Boca Raton, USA: Taylor&Francis Group, Chapman and Hall.
Carling, C., Williams, A. M. & Reilly, T. (2005). Handbook of soccer match analysis: a Systematic approach to improving performance (1. baskı). New York, USA: Routledge.
Coşkuner, Z., Büyükçelebi, H. ve Kurak, K. (2020). Türkiye Süper Ligi’ndeki oyun içi değişkenlerin analizi. Germenica Beden Eğitimi ve Spor Bilimleri Dergisi, 1(1), 46-54.
Çalış, A. ve Kayapınar, S. (2014). Veri madenciliğinde karar ağacı algoritmaları ile bilgisayar ve internet güvenliği üzerine bir uygulama. Endüstri Mühendisliği Dergisi, 25(3-4), 2-19.
Díaz-Pérez, F. & Cejas, B. (2016). CHAID algorithm as an appropriate analytical method for tourism market segmentation. Journal of Destination Marketing & Management, 5(3), 275-282. https://doi.org/10.1016/j.jdmm.2016.01.006
Han, J., Kamber, M. & Pei, J. (2012). Data mining: concepts and techniques (3. baskı). MA, USA: Morgan Kaufmann Publishers.
Hucaljuk, J., & Rakipović, A. (2011, May). Predicting football scores using machine learning techniques. In 2011 Proceedings of the 34th International Convention MIPRO (pp. 1623-1627). IEEE.
Karaoğlu, B. (2015). Makine öğrenmesi ile spor karşılaşmalarının modellenmesi. EMO Bilimsel Dergi, 5(9), 1-5.
Kuzey, C. (2012). Veri madenciliğinde destek vektör makinaları ve karar ağaçları yöntemlerini kullanarak bilgi çalışanlarının kurum performansı üzerine etkisinin ölçülmesi ve bir uygulama. Yayımlanmamış Doktora Tezi, İstanbul Üniversitesi, Sosyal Bilimler Enstitüsü, İstanbul.
Michie, D., Spiegelhalter, D.J. & Taylor, C.C. (1994). Machine learning, neural and statistical classification (1. baskı). New York, USA: Ellis Horwood series, Prentice Hall.
Oğuzlar, A. (2010). CART analizi ile hanehalkı işgücü anketi sonuçlarının özetlenmesi. Atatürk Üniversitesi İktisadi ve İdari Bilimler Dergisi, 18(3-4), 79-90.
Özekes, S. (2003). Veri madenciliği modelleri ve uygulama alanları. İstanbul Ticaret Üniversitesi Dergisi, 2(3), 65-82.
Prasetio, D. & Harlili, D. (2016). Predicting football match results with logistic regression. In 2016 International Conference On Advanced Informatics: Concepts, Theory And Application (ICAICTA) (pp. 1-5). IEEE. SPSS. (2001). Statistical package for the social sciences. USA: SPSS Inc.
Şenel, S. ve Alatlı, B. (2014). Lojistik regresyon analizinin kullanıldığı makaleler üzerine bir inceleme. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 5(1), 35-52.
Tabachnick, B. G. & Fidell, L. S. (1996). Using multivariate statistics (3. baskı). New York, USA: Harper Collins College Publishers.
TFF. (2021). Türkiye Futbol Federasyonu, https://www.tff.org/, Son Erişim Tarihi: 3 Ağustos 2021.
Wu, X. & Kumar, V. (2009). CART: Classification and regression trees, top ten algorithms in data mining (1. baskı). New York: Chapman and Hall.
Yavuz, A. ve Vupa Çilengiroğlu, Ö. (2020). Lojistik regresyon ve CART yöntemlerinin tahmin edici performanslarının yaşam memnuniyeti verileri için karşılaştırılması. Avrupa Bilim ve Teknoloji Dergisi, (18), 719-727.
Zheng H., Chen L., Han X., Zhao X. & Ma Y. (2009). Classification and regression tree (CART) for analysis of soybean yield variability among fields in Northeast China: The importance of phosphorus application rates under drought conditions. Agriculture, Ecosystems & Environment, 132, 98-105.

There are 19 citations in total.

Details

Primary Language	Turkish
Subjects	Tourism (Other)
Journal Section	Original Article
Authors	Duygu Topçu 0000-0001-6932-8774 Özgül Vupa Çilengiroğlu 0000-0003-0181-8376
Early Pub Date	December 12, 2021
Publication Date	December 31, 2021
Acceptance Date	December 16, 2021
Published in Issue	Year 2021 Volume: 6 Issue: 2

Cite

APA	Topçu, D., & Vupa Çilengiroğlu, Ö. (2021). Futbol Verilerinin Karar Ağaçları ve Lojistik Regresyon Yöntemleri ile İncelenmesi. Journal of Sport Sciences Research, 6(2), 491-503. https://doi.org/10.25307/jssr.978449
AMA	Topçu D, Vupa Çilengiroğlu Ö. Futbol Verilerinin Karar Ağaçları ve Lojistik Regresyon Yöntemleri ile İncelenmesi. JSSR. December 2021;6(2):491-503. doi:10.25307/jssr.978449
Chicago	Topçu, Duygu, and Özgül Vupa Çilengiroğlu. “Futbol Verilerinin Karar Ağaçları Ve Lojistik Regresyon Yöntemleri Ile İncelenmesi”. Journal of Sport Sciences Research 6, no. 2 (December 2021): 491-503. https://doi.org/10.25307/jssr.978449.
EndNote	Topçu D, Vupa Çilengiroğlu Ö (December 1, 2021) Futbol Verilerinin Karar Ağaçları ve Lojistik Regresyon Yöntemleri ile İncelenmesi. Journal of Sport Sciences Research 6 2 491–503.
IEEE	D. Topçu and Ö. Vupa Çilengiroğlu, “Futbol Verilerinin Karar Ağaçları ve Lojistik Regresyon Yöntemleri ile İncelenmesi”, JSSR, vol. 6, no. 2, pp. 491–503, 2021, doi: 10.25307/jssr.978449.
ISNAD	Topçu, Duygu - Vupa Çilengiroğlu, Özgül. “Futbol Verilerinin Karar Ağaçları Ve Lojistik Regresyon Yöntemleri Ile İncelenmesi”. Journal of Sport Sciences Research 6/2 (December 2021), 491-503. https://doi.org/10.25307/jssr.978449.
JAMA	Topçu D, Vupa Çilengiroğlu Ö. Futbol Verilerinin Karar Ağaçları ve Lojistik Regresyon Yöntemleri ile İncelenmesi. JSSR. 2021;6:491–503.
MLA	Topçu, Duygu and Özgül Vupa Çilengiroğlu. “Futbol Verilerinin Karar Ağaçları Ve Lojistik Regresyon Yöntemleri Ile İncelenmesi”. Journal of Sport Sciences Research, vol. 6, no. 2, 2021, pp. 491-03, doi:10.25307/jssr.978449.
Vancouver	Topçu D, Vupa Çilengiroğlu Ö. Futbol Verilerinin Karar Ağaçları ve Lojistik Regresyon Yöntemleri ile İncelenmesi. JSSR. 2021;6(2):491-503.

Journal of Sport Sciences Research

Futbol Verilerinin Karar Ağaçları ve Lojistik Regresyon Yöntemleri ile İncelenmesi

Abstract

Keywords

References

Analysis of Football Data with Decision Trees and Logistic Regression Methods

Abstract

Keywords

References

Details

Cite

Cited By

Machine Learning Based Decision Support System for the Diagnosis of Breast Cancer

International Journal of Innovative Science and Research Technology (IJISRT)

https://doi.org/10.38124/ijisrt/IJISRT24OCT1557