Research Article
BibTex RIS Cite

Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması

Year 2017, Volume: 8 Issue: 1, 63 - 78, 03.04.2017
https://doi.org/10.21031/epod.294847

Abstract

Bu araştırmada dereceli puanlama anahtarı türü ve puanlayıcı sayısı
değişiminin, puanlayıcı güvenirliğini belirlemede kullanılan tekniklerden elde
edilen sonuçlar üzerindeki etkisi incelenmiştir. Araştırmanın çalışma grubu, 50
öğrenci ve puanlama yapan 10 öğretmenden oluşmaktadır. Betimsel nitelik taşıyan
araştırmada puanlayıcı güvenirliğini belirlemede Kappa istatistik tekniği, log
linear analiz tekniği ve Krippendorff alfa tekniği kullanılmıştır. Puanlayıcı
sayısı değişiminin puanlayıcı güvenirliğine etkisini incelemek adına belirtilen
üç teknik kullanılarak iki, beş ve on puanlayıcı arasındaki uyum düzeyleri
hesaplanmıştır. Araştırmada üç teknikten elde edilen analiz sonuçlarında,
analitik puanlama anahtarı kullanımıyla elde edilen puanlarda, puanlayıcı
sayısı artışının güvenirlik düzeyini düşürdüğü tespit edilmiştir. Üç teknikle
yapılan analizlerde, en yüksek güvenirlik değerleri iki puanlayıcı
kullanıldığında elde edilmiş, puanlayıcı sayısı artırıldıkça güvenirliğin
düştüğü saptanmıştır. Analitik puanlama anahtarını oluşturan kategoriler
incelendiğinde kategoriler arasında objektiflik düzeyine dayalı olarak,
puanlayıcıların uyum düzeylerinde değişkenlik olduğu saptanmıştır.  Araştırmanın sonucunda, kullanılan
tekniklerden Kappa tekniği ve Krippendorff alfa tekniğinin paralel sonuçlar
verdiği görülmüştür. Bununla birlikte Krippendorff alfa tekniğinin puanlayıcı
sayısı değişiminden Kappa tekniğine göre daha az etkilendiği belirlenmiştir.
Log-linear analiz tekniğinin ise değişkenler arasındaki etkileşimleri ve
uyumsuzluk kaynağını gösteren daha kapsamlı ve geniş bilgi sağladığı tespit
edilmiştir.  Sonuç olarak, daha detaylı
ölçme sonuçları elde edilmek istendiğinde alt kategorilerden oluşan analitik
puanlama anahtarı kullanılarak toplanan puanların, kategorik veri analizi için
uygun olan log-linear analiz tekniğinin; daha genel ölçme sonuçlarına ulaşılmak
istendiğinde ise bütünsel puanlama anahtarı ile elde edilen puanların
Krippendorff alfa tekniğinin kullanılmasının uygun olduğu düşünülmektedir.



 

References

  • Airasian, P. W. (1994). Classroom assessment. New York: McGraw-Hill.
  • Agresti, A. (1996). An introduction to categorical data analysis. New York: John Wiley & Sons, INC.
  • Akgül, A. (2005). Tıbbi araştırmalarda istatistiksel analiz teknikleri, SPSS uygulamaları. (3. Baskı). Ankara: Emek Ofset.
  • Anthony, J., Viere, M. D., ve Garrett, P.D. (2005). Understanding interobserver agreement: The kappa statistic. Family Medicine, 37(5), 360-362.
  • Atılgan, H., Kan, A. ve Doğan, N. (2007). Eğitimde ölçme ve değerlendirme. (2. Basım). Ankara: Anı Yayıncılık.
  • Baykul, Y. (2000). Eğitim ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulaması. Ankara: ÖSYM.
  • Brennen, R. L. ve Prediger, D. J. (1981). Coefficient kappa: Some Uses, misuses, and alternatives. Educational and Psychological Measurement, 41(1981), 687-699.
  • Burry-Stock, J. A., Shaw, D. G., Laurie, C., ve Chissom, B. S. (1996). Rater agreement indexies for performance assessment. Educational and Psychological Measurement, 56(2), 251-262.
  • Cohen. J. R., Swerdlik E. M. ve Phillips, S. M. (1996). Psychological testing and assessment. (3th ed). London: Mayfield Publishing Compony.
  • Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37-46.
  • Crawforth, K. (2001). Measuring the interrater reliability of a data collection instrument developed to evaluate anesthetic outcomes. Doctoral Dissertation. Available from Proquest Dissertations and Theses database. (UMI No. 3037063)
  • Crocker, L. ve Algina, J. (2008). Introduction to classical and modern test theory. Ohio: Centage Learning.
  • Fitzpatrick, R. ve Morrison, E. J. (1971). Performance and product evaluation. In R. L. Thorndike (Ed.), Educational Measurement (2), 237–270. Washington DC: American Council on Education.
  • Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin. 76(5), 378-382.
  • Goodrich, H. (1997). Understanding rubric. Educational Leadership, 54(4), 14-17.
  • Goodwin, L. D. (2001). Interrater agreement and reliability. Measurement in Psychical Education and Exercises Science, 5(1), 13-14.
  • Haladyna, M. T. (1997). Writing test items to evaluate higher order thinking. Needham Heights: Allyn and Bacon.
  • Johnson, A. ve Swingly, G. (2007) . The use of scoring rubrics: Reliability, validity and educational consequences. Educational Research Rewiew. 2(2007), 130-144.
  • Korkmaz, H. (2004). Fen ve teknoloji eğitiminde alternatif değerlendirme yaklaşımları. Ankara: Yeryüzü Yayınevi.
  • Krippendorff, K. (1995). On the reliability of unitizing continuous data. Sociological Methodology, 25, 47-76.
  • Krippendorff, K. (2004b). Measuring the reliability of qualitative text analysis data.
  • Humanities, Social Sciences and Law, 38(6), 787-800.
  • Kutlu, Ö., Doğan, D. C. ve Karakaya, Ġ. (2009). Öğrenci başarısının belirlenmesi: performansa ve portfolyaya dayalı durum belirleme. Ankara: Pegem Akademi.
  • Landis, J, R. ve Koch, G. (1977). The measurement of observer agreement for categorical data. Biometrics. 33, 159-174.
  • Mertler, C. A. (2001). Designing scoring rubrics for your classroom. Pratical Assessment Research and Evaluation, 7(25).
  • Moskal, B. M. (2000). Scoring rubrics: What, when and how?. Practical Assessment Research and Evaluation, 7(3).
  • Nitko, A. J. (2001). Educational assessment of students. (3th ed). New Jersey: Prentice Hall.
  • Sim, J. ve Wright, C. C. (2005) The kappa statistic in reliability studies: use, interpretation, and sample size requirements. Physical Theraphy, 85(3), 258-268.
  • Tanner, M. A. ve Young, M. A. (1988). Modeling agreement among raters. Journal of the American Statistical Association, 80(389). 175-180.
  • Von Eye, A. ve Mun, E. Y. (2005). Analyzing rater agreement: Manifest variable methods. New Jersey: Lawrence Erlbaum Associates.
Year 2017, Volume: 8 Issue: 1, 63 - 78, 03.04.2017
https://doi.org/10.21031/epod.294847

Abstract

References

  • Airasian, P. W. (1994). Classroom assessment. New York: McGraw-Hill.
  • Agresti, A. (1996). An introduction to categorical data analysis. New York: John Wiley & Sons, INC.
  • Akgül, A. (2005). Tıbbi araştırmalarda istatistiksel analiz teknikleri, SPSS uygulamaları. (3. Baskı). Ankara: Emek Ofset.
  • Anthony, J., Viere, M. D., ve Garrett, P.D. (2005). Understanding interobserver agreement: The kappa statistic. Family Medicine, 37(5), 360-362.
  • Atılgan, H., Kan, A. ve Doğan, N. (2007). Eğitimde ölçme ve değerlendirme. (2. Basım). Ankara: Anı Yayıncılık.
  • Baykul, Y. (2000). Eğitim ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulaması. Ankara: ÖSYM.
  • Brennen, R. L. ve Prediger, D. J. (1981). Coefficient kappa: Some Uses, misuses, and alternatives. Educational and Psychological Measurement, 41(1981), 687-699.
  • Burry-Stock, J. A., Shaw, D. G., Laurie, C., ve Chissom, B. S. (1996). Rater agreement indexies for performance assessment. Educational and Psychological Measurement, 56(2), 251-262.
  • Cohen. J. R., Swerdlik E. M. ve Phillips, S. M. (1996). Psychological testing and assessment. (3th ed). London: Mayfield Publishing Compony.
  • Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37-46.
  • Crawforth, K. (2001). Measuring the interrater reliability of a data collection instrument developed to evaluate anesthetic outcomes. Doctoral Dissertation. Available from Proquest Dissertations and Theses database. (UMI No. 3037063)
  • Crocker, L. ve Algina, J. (2008). Introduction to classical and modern test theory. Ohio: Centage Learning.
  • Fitzpatrick, R. ve Morrison, E. J. (1971). Performance and product evaluation. In R. L. Thorndike (Ed.), Educational Measurement (2), 237–270. Washington DC: American Council on Education.
  • Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin. 76(5), 378-382.
  • Goodrich, H. (1997). Understanding rubric. Educational Leadership, 54(4), 14-17.
  • Goodwin, L. D. (2001). Interrater agreement and reliability. Measurement in Psychical Education and Exercises Science, 5(1), 13-14.
  • Haladyna, M. T. (1997). Writing test items to evaluate higher order thinking. Needham Heights: Allyn and Bacon.
  • Johnson, A. ve Swingly, G. (2007) . The use of scoring rubrics: Reliability, validity and educational consequences. Educational Research Rewiew. 2(2007), 130-144.
  • Korkmaz, H. (2004). Fen ve teknoloji eğitiminde alternatif değerlendirme yaklaşımları. Ankara: Yeryüzü Yayınevi.
  • Krippendorff, K. (1995). On the reliability of unitizing continuous data. Sociological Methodology, 25, 47-76.
  • Krippendorff, K. (2004b). Measuring the reliability of qualitative text analysis data.
  • Humanities, Social Sciences and Law, 38(6), 787-800.
  • Kutlu, Ö., Doğan, D. C. ve Karakaya, Ġ. (2009). Öğrenci başarısının belirlenmesi: performansa ve portfolyaya dayalı durum belirleme. Ankara: Pegem Akademi.
  • Landis, J, R. ve Koch, G. (1977). The measurement of observer agreement for categorical data. Biometrics. 33, 159-174.
  • Mertler, C. A. (2001). Designing scoring rubrics for your classroom. Pratical Assessment Research and Evaluation, 7(25).
  • Moskal, B. M. (2000). Scoring rubrics: What, when and how?. Practical Assessment Research and Evaluation, 7(3).
  • Nitko, A. J. (2001). Educational assessment of students. (3th ed). New Jersey: Prentice Hall.
  • Sim, J. ve Wright, C. C. (2005) The kappa statistic in reliability studies: use, interpretation, and sample size requirements. Physical Theraphy, 85(3), 258-268.
  • Tanner, M. A. ve Young, M. A. (1988). Modeling agreement among raters. Journal of the American Statistical Association, 80(389). 175-180.
  • Von Eye, A. ve Mun, E. Y. (2005). Analyzing rater agreement: Manifest variable methods. New Jersey: Lawrence Erlbaum Associates.
There are 30 citations in total.

Details

Journal Section Articles
Authors

Özge Bıkmaz Bilgen

Nuri Doğan

Publication Date April 3, 2017
Acceptance Date March 8, 2017
Published in Issue Year 2017 Volume: 8 Issue: 1

Cite

APA Bıkmaz Bilgen, Ö., & Doğan, N. (2017). Puanlayıcılar Arası Güvenirlik Belirleme Tekniklerinin Karşılaştırılması. Journal of Measurement and Evaluation in Education and Psychology, 8(1), 63-78. https://doi.org/10.21031/epod.294847

Cited By











































USE OF TAKE-HOME EXAMS FOR REMOTE ASSESSMENT: A CASE STUDY
Journal of Educational Technology and Online Learning
Selma ŞENEL
https://doi.org/10.31681/jetol.912965