Research Article
BibTex RIS Cite

Bilgisayar Ortamında Bireye Uyarlanmış Testlerde İçerik Dengeleme ve Madde Seçme Yönteminin Yetenek Düzeyi Kestirimine Etkileri

Year 2017, Volume: 17 Issue: 69, 21 - 36, 20.05.2017

Abstract

Problem Durumu: Son yıllardaki teknolojik gelişmelerin ölçme ve değerlendirme alanına katkılarıyla birlikte geleneksel anlamda kağıt kalem testleri artık eski popülerliğini yitirmeye başlamıştır. Gelişen bilgisayar teknolojisi, hem ölçme işleminin süresinin kısalmasını hem de daha geçerli ve güvenilir testlerin işekoşulmasını mümkün hale getirmiştir. Özellikle bireyin yetenek düzeyine uygun sınav sorularıyla karşılaşması zaman ve kullanılan süre açısından önemli bir tasarruf sağlamaktadır. Bu, ancak bilgisayar ortamında bireye uyarlanmış test (BOBUT) uygulaması ile mümkün olabilmektedir. BOBUT uygulaması, başlatma kuralı, madde seçim yöntemi, yetenek kestirimi, içerik dengeleme ve test sonlandırma gibi önemli süreçlerden oluşmaktadır. Bu süreçlerin belki de en önemlisi madde seçim yöntemidir. Bu çalışmada BOBUT uygulamasının en önemli aşamalarından olan madde seçim yöntemleri ele alınmıştır. Alanyazındaki madde seçimine yönelik çalışmalar incelendiğinde madde seçim yöntemlerinin içerik dengeleme (content balancing) kullanıldığında farklı yetenek düzeylerindeki bireylerin örtük puanları üzerinde nasıl bir etki gösterdiğinin halihazırda henüz incelenmediği görülmüştür.

Araştırmanın Amacı: Bu araştırmanın amacı BOBUT uygulamalarında içerik dengeleme kullanıldığında madde seçim yöntemindeki değişikliğin yetenek kestirimine etkisini yaygın olarak kullanılan Fisher’ın en yüksek bilgi (Fisher’s maximum information) ve onun önemli bir alternatifi olduğu daha önceki

Alper SAHIN –Durmus OZBASI / Eurasian Journal of Educational Research 69 (2017) 21-36 35

araştırmalarda tespit edilen ağırlıklandırılmış bilgi oranı (Likelihood weighted information) yöntemlerini kullanmak suretiyle belirlemek ve içerik dengeleme üzerine sonraki dönemlerde yapılacak çalışmalara ışık tutmaktır.

Araştırmanın Yöntemi: Araştırmada kullanılan veriler Monte-Carlo simülasyon yöntemi ile elde edilmiştir. Bu bağlamda, araştırmanın verileri için yetenek düzeyleri -3 ile +3 arasında normal dağılım gösteren 4 farklı büyüklükte 250, 500, 750 ve 1000 birey grupları oluşturulmuştur. Yetenek kestirimlerinde en yüksek olabilirlik kestirim (Maximum likelihood estimation) yöntemi kullanılmıştır. Benzetim ile oluşturulan bireyler bu aşamada elde edilen gerçek yetenek düzeylerine göre altı alt yetenek grubuna ayrılmıştır (Örn. -3 < θ < -2 = grup 1, -2 < θ < -1 = grup 2, … vb.).

Madde havuzu için her birine yönelik 50’şer madde bulunan 10 farklı konu alanında toplam 500 madde benzetim yöntemiyle üretilmiştir. Madde parametreleri a parametresi için 0 ile 1.5, b için -3 ile +3 ve c için ise 0 ile 0.25 arasında sabit (uniform) dağılım gösterecek şekilde üretilmiştir. Birey ve maddelerin elde edilmesi sonrası bir dizi Post-hoc benzetim çalışması gerçekleştirilmiştir. Bu çalışmalar, birey yetenek başlangıç düzeyi -0.5 ile +0.5 aralığında olacak, en kısa test uzunluğu her bir konu alanından %10 oranında madde içerecek şekilde en az 10 madde kullanılacak ve yetenek düzeyi kestirimi standart hata değeri 0.25’ten küçük olduğunda testi sonlandıracak şekilde ayarlanmıştır. Post-hoc benzetimler 10 kez tekrarlanmıştır.

Araştırmanın Bulguları: Farklı madde seçme yöntemleri kullanıldığında, gerçek ve kestirilen yetenek düzeyleri arasındaki korelasyonlar (r) 4 farklı büyüklükteki grup ve bu grupların her birinde 6 farklı yetenek aralığındaki bireyler için ayrı ayrı incelenmiştir. Buna göre 250 kişilik grup için Fisher’ın en yüksek bilgi yöntemi kullanıldığında, gerçek ve kestirilen yetenek düzeyleri arasında en yüksek korelasyon r=0.94 olarak bulunmuştur. En düşük korelasyon (r=0.26) ise madde seçme kuralı olarak ağırlıklandırılmış bilgi fonksiyonu kullanıldığında elde edilmiştir. Sınavı alan kişi sayısı 500’e çıktığında ise en yüksek korelasyon madde seçme kuralı olarak ağırlıklandırılmış bilgi oranı kullanıldığında elde edilmiştir (r=0.75). Kişi sayısı 750’ye çıktığında en yüksek korelasyon katsayıları her iki yöntem için de çok yakın bulunmuştur (rfisher=0.75; rağırlıklandırılmış=0.76). Benzer bir durum, örneklem sayısı 1000’e çıktığında da geçerli olmuş ve benzer en yüksek korelasyonlar elde edilmiştir (rfisher=0.74; rağırlıklandırılmış=0.75).

Farklı birey gruplarında her alt yetenek düzeyi için iki madde seçme kuralı ayrı ayrı uygulandığında elde edilen tahmini yetenek düzeyleri ile bireylerin gerçek yetenek düzeyleri arasındaki ortalama karesel hata (MSE; Mean Squared Error) değerleri karşılaştırılmıştır. Buna göre, en düşük MSE değeri 250 kişilik grupta ağırlıklandırılmış bilgi oranı yöntemi kullanıldığında 1. alt yetenek grubunda elde edilmiştir (MSE=0.10). Yine aynı madde seçme kuralında alt yetenek grubu 6’da ise MSE=1.11 ile diğer yetenek gruplarına göre daha yüksek bir değer almıştır. Birey sayısı 500’e çıktığında, ağırlıklandırılmış bilgi oranı yöntemi kullanıldığında alt yetenek grubu 1 MSE=0.12 ile en düşük değer almıştır. En yüksek MSE ise alt grup 6’da MSE=1.22 olarak hesaplanmıştır. Birey sayısı 750’ye çıktığında ise ağırlıklandırılmış bilgi yöntemi kullanıldığında MSE değeri en düşük alt yetenek

Alper SAHIN –Durmus OZBASI / Eurasian Journal of Educational Research 69 (2017) 21-36 36

grubu 1’de (MSE=0.11) elde edilmiştir. En yüksek MSE (1.35) ise yine alt grup 6’da elde edilmiştir. Birey sayısı 1000’e çıktığında da benzer sonuçlar elde edilmiştir. En düşük MSE değeri grup 1’de, en yüksek MSE değeri ise yine grup 6’dan elde edilmiştir.

Her iki madde seçme yönteminin kestirim kalitesi kullanılan ortalama madde sayıları açısından da karşılaştırılmıştır. 250 kişinin sınavı aldığı durumda, en fazla sayıda madde, madde seçme kuralı olarak ağırlıklandırılmış bilgi oranı yöntemi kullanıldığında alt yetenek grubu 6’da ortaya çıkmıştır (kullanılan madde sayısı 41.77). En düşük ortalama madde sayısı (31.03) ise alt yetenek grubu 1’den elde edilmiştir. Sınavı alan birey sayısı 500’e çıktığında ise, en yüksek ortalama madde sayısı madde seçme kuralı olarak ağırlıklandırılmış bilgi yöntemi kullanıldığında grup 6’da elde edilirken, en düşük madde sayısı Fisher’ın en yüksek bilgi yöntemi kullanıldığında 5. alt yetenek grubundan elde edilmiştir (22.78). Bu durum sınavı alan birey sayısı 750 ve 1000 olduğunda da değişmemiş, en yüksek ve en düşük ortalama madde uygulanan yetenek aralıkları ve bunlara ait madde seçme kuralları değişmemiştir. Bir başka ifade ile sınavı alan birey grubu 750 ve 1000 olduğunda en yüksek madde kullanımı her iki birey grubunda da madde seçme kuralı olarak ağırlıklandırılmış bilgi oranı yöntemi kullanıldığında grup 6’da sırasıyla ortalama 45.81 ve 44.1 şeklinde elde edilmiştir. En düşük ortalama madde kullanımı ise madde seçme kuralı olarak Fisher’ın en yüksek bilgi yöntemi kullanıldığında grup 5’te sırasıyla 22.71 ve 22.65 şeklinde elde edilmiştir.

Araştırmanın Sonuçları ve Önerileri: Çalışmada elde edilen tüm bulgular göz önüne alındığında, içerik dengeleme kullanıldığında, ağırlıklandırılmış bilgi oranı yönteminin literatürde geçtiği şekliyle Fisher’ın en yüksek bilgi yöntemine aslında tamamen üstünlük sağlamadığı, bu üstünlüğün yetenek değeri -3 ile 0 aralığında olan bireyler için geçerliği olduğu, yetenek düzeyi 0’ın üzerine çıktığı durumlarda ise Fisher’ın en yüksek bilgi yönteminin yetenek kestiriminde daha başarılı olduğu sonucuna varılmıştır. Bu durum 0’dan küçük yetenek düzeylerinde ağırlıklandırılmış bilgi oranı yönteminin, 0’dan büyük yetenek düzeylerinde Fisher’ın en yüksek bilgi yönteminin kullanılmasını sağlayacak bir madde seçme algoritmasının her iki yöntemin de eksiklerini giderebileceğinden hareketle her durumda BOBUT uygulamalarında daha başarılı yetenek düzeyi kestirimleri elde edilmesini sağlayacak böyle bir algoritmanın geliştirilmesi önerilmektedir.

References

  • Barrada, J. R., Olea, J., Ponsoda, V., & Abad, F. J. (2009). Item selection rules in computerized adaptive testing: Accuracy and security. Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, 5, 7-17. https://dx.doi.org/10.1027/1614-2241.5.1.7
  • Barrada, J. R., Olea, J., Ponsoda, V., & Abad, F. J. (2010). A method for the comparison of item selection rules in computerized adaptive testing. Applied Psychological Measurement, 34, 438-452. https://dx.doi.org/10.1177/0146621610370152
  • Chang, H.-H., & Ying, Z. (1996). A global information approach to computerized adaptive testing. Applied Psychological Measurement, 20, 213– 229. http://dx.doi.org/10.1177/014662169602000303
  • Chen, S.-Y., Ankenmann, R. D., & Chang, H. H.(2000). A comparison of item selection rules at the early stages of computerized adaptive testing. Applied Psychological Measurement, 24, 241-255. http://dx.doi.org/10.1177/01466210022031705
  • Cheng, E.P. & Liou, M. (2003). Computerized adaptive testing using the nearest-neighbors criterion. Applied Psychological Measurement, 27(3), 204-216. http://dx.doi.org/10.1177/0146621603027003002
  • Choi, S. W.& Swartz, R. J. (2009). Comparison of CAT item selection criteria for polytomous items. Applied Psychological Measurement, 33, 419-440. http://dx.doi.org/10.1177/0146621608327801
  • Embretson, S.E. & Reise, S.P. (2000). Item response theory for psychologists. Mahwah, NJ: Lawrence Erlbaum Associates. Gao, F., & Chen, L. (2005). Bayesian or non-Bayesian: A comparison study of item parameter estimation in the three parameter logistic model. Applied Measurement in Education, 18, 351–380. http://dx.doi.org/10.1207/s15324818ame1804_2
  • Hambleton, R. K., & Swaminathan H. (1985). Item response theory: Principals and applications. Norwell, MA: Kluwer Nijhof.
  • Hambleton, R. K., Swaminathan, H., & Rogers, H.J. (1991) Fundamentals of item response theory. Newbury Park, CA: Sage Publications.
  • Han, K. T. (2012). SimulCAT: Windows software for simulating computerized adaptive test administration. Applied Psychological Measurement, 36(1), 64-66. http://dx.doi.org/10.1177/0146621611414407
  • Alper SAHIN –Durmus OZBASI / Eurasian Journal of Educational Research 69 (2017) 21-36 33 International Council for Science. (2004). The value of basic scientific research. Retrieved March 10, 2017 from http://www.icsu.org/publications/icsu-position-statements/value-scientific-research
  • Kingsbury, G. G., & Zara, A. R. (1989). Procedures for selecting items for computerized adaptive tests. Applied Measurement in Education, 2, 359–375. http://dx.doi.org/10.1207/s15324818ame0204_6
  • Lord, F. M. (1980) Applications of item response theory to practical testing problems. Hillsdale, NJ: Lawrence Erlbaum Associates. Passos, V. L., Berger, M. P. F., & Tan, F. E. (2007). Test design optimization in CAT early stage with the nominal response model. Applied Psychological Measurement, 31, 213-232. http://dx.doi.org/10.1177/ 0146621606291571
  • Rudner, L. M. (1998). An on-line, interactive, computer adaptive testing tutorial. Retrieved February 25, 2017 from http://echo.edres.org:8080/scripts/cat/catdemo.htm
  • Sahin, A., & Weiss, D. J. (2015). Effects of calibration sample size and item bank size on ability estimation in computerized adaptive testing. Educational Sciences: Theory & Practice, 15, 1585-1595. http://dx.doi.org/10.12738/estp.2015.6.0102
  • Thompson, N. A., & Weiss, D.J. (2011). A Framework for the development of computerized adaptive tests. Practical Assessment, Research & Evaluation, 16(1), 1-9. Retrieved from: http://pareonline.net/getvn.asp?v=16&n=1
  • van der Linden, W. J. (1998). Bayesian item selection criteria for adaptive testing. Psychometrika, 63, 201-216. http://dx.doi.org/10.1007/BF02294775
  • van Rijn, P., Eggen, T. J., Hemker, B. T., & Sanders, P. F. (2002). Evaluation of selection procedures for computerized adaptive testing with polytomous items. Applied Psychological Measurement, 26, 393-411. http://dx.doi.org/10.1177/014662102237796 Veerkamp, W. J .J. & Berger, M. P. F. (1997). Some new item selection criteria for adaptive testing. Journal of Educational and Behavioral Statistics, 22(2), 203-226. Retrieved from http://www.jstor.org/stable/1165378
  • Veldkamp, B. P. (2003). Item selection in polytomous CAT. In H. Yanai, A. Okada, K. Shigemasu, Y. Kano, & J.J. Meulman (Eds.), New developments in psychometrics (pp. 207-214). Tokyo, Japan: Springer-Verlag.
  • Weiss, D. J. (1983). Final Report: Computer-Based Measurement of Intellectual Capabilities. University of Minnesota, Department of Psychology. Retrieved from the University of Minnesota Digital Conservancy, http://hdl.handle.net/11299/135261
  • Weissman, A. (2006). A Feedback control strategy for enhancing item selection efficiency in computerized adaptive testing. Applied Psychological Measurement, 30(2), 87-99. http://dx.doi.org /10.1177/0146621605282774

Effects of Content Balancing and Item Selection Method on Ability Estimation in Computerized Adaptive Tests

Year 2017, Volume: 17 Issue: 69, 21 - 36, 20.05.2017

Abstract

Purpose: This study aims to reveal effects of content balancing and item selection method on ability estimation in computerized adaptive tests by comparing Fisher’s maximum information (FMI) and likelihood weighted information (LWI) methods. Research Methods: Four groups of examinees (250, 500, 750, 1000) and a bank of 500 items with 10 different content domains were generated through Monte Carlo simulations. Examinee ability was estimated by fixing all settings except for the item selection methods mentioned. True and estimated ability (θ) values were compared by dividing examinees into six subgroups. Moreover, the average number of items used was compared. Findings: The correlations decreased steadily as examinee θ levelincreased among all examinee groups when LWI was used. FMI had the same trend with the 250 and 500 examinees. Correlations for 750 examinees decreased as θ level increased as well, but they were somewhat steady with FMI. For 1000 examinees, FMI was not successful in estimating examinee θ accurately after θ subgroup 4. Moreover, when FMI was used, θ estimates had less error than LWI. The figures regarding the average items used indicated that LWI used fewer items in subgroups 1, 2, 3 and that FMI used less items in subgroups 4, 5, and 6. Implications for Research and Practice: The findings indicated that when content balancing is put into use, LWI is more suitable to estimate examinee θ for examinees between -3 and 0 and that FMI is more stable when examinee θ is above 0. An item selection algorithm combining these two item selection methods is recommended.

References

  • Barrada, J. R., Olea, J., Ponsoda, V., & Abad, F. J. (2009). Item selection rules in computerized adaptive testing: Accuracy and security. Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, 5, 7-17. https://dx.doi.org/10.1027/1614-2241.5.1.7
  • Barrada, J. R., Olea, J., Ponsoda, V., & Abad, F. J. (2010). A method for the comparison of item selection rules in computerized adaptive testing. Applied Psychological Measurement, 34, 438-452. https://dx.doi.org/10.1177/0146621610370152
  • Chang, H.-H., & Ying, Z. (1996). A global information approach to computerized adaptive testing. Applied Psychological Measurement, 20, 213– 229. http://dx.doi.org/10.1177/014662169602000303
  • Chen, S.-Y., Ankenmann, R. D., & Chang, H. H.(2000). A comparison of item selection rules at the early stages of computerized adaptive testing. Applied Psychological Measurement, 24, 241-255. http://dx.doi.org/10.1177/01466210022031705
  • Cheng, E.P. & Liou, M. (2003). Computerized adaptive testing using the nearest-neighbors criterion. Applied Psychological Measurement, 27(3), 204-216. http://dx.doi.org/10.1177/0146621603027003002
  • Choi, S. W.& Swartz, R. J. (2009). Comparison of CAT item selection criteria for polytomous items. Applied Psychological Measurement, 33, 419-440. http://dx.doi.org/10.1177/0146621608327801
  • Embretson, S.E. & Reise, S.P. (2000). Item response theory for psychologists. Mahwah, NJ: Lawrence Erlbaum Associates. Gao, F., & Chen, L. (2005). Bayesian or non-Bayesian: A comparison study of item parameter estimation in the three parameter logistic model. Applied Measurement in Education, 18, 351–380. http://dx.doi.org/10.1207/s15324818ame1804_2
  • Hambleton, R. K., & Swaminathan H. (1985). Item response theory: Principals and applications. Norwell, MA: Kluwer Nijhof.
  • Hambleton, R. K., Swaminathan, H., & Rogers, H.J. (1991) Fundamentals of item response theory. Newbury Park, CA: Sage Publications.
  • Han, K. T. (2012). SimulCAT: Windows software for simulating computerized adaptive test administration. Applied Psychological Measurement, 36(1), 64-66. http://dx.doi.org/10.1177/0146621611414407
  • Alper SAHIN –Durmus OZBASI / Eurasian Journal of Educational Research 69 (2017) 21-36 33 International Council for Science. (2004). The value of basic scientific research. Retrieved March 10, 2017 from http://www.icsu.org/publications/icsu-position-statements/value-scientific-research
  • Kingsbury, G. G., & Zara, A. R. (1989). Procedures for selecting items for computerized adaptive tests. Applied Measurement in Education, 2, 359–375. http://dx.doi.org/10.1207/s15324818ame0204_6
  • Lord, F. M. (1980) Applications of item response theory to practical testing problems. Hillsdale, NJ: Lawrence Erlbaum Associates. Passos, V. L., Berger, M. P. F., & Tan, F. E. (2007). Test design optimization in CAT early stage with the nominal response model. Applied Psychological Measurement, 31, 213-232. http://dx.doi.org/10.1177/ 0146621606291571
  • Rudner, L. M. (1998). An on-line, interactive, computer adaptive testing tutorial. Retrieved February 25, 2017 from http://echo.edres.org:8080/scripts/cat/catdemo.htm
  • Sahin, A., & Weiss, D. J. (2015). Effects of calibration sample size and item bank size on ability estimation in computerized adaptive testing. Educational Sciences: Theory & Practice, 15, 1585-1595. http://dx.doi.org/10.12738/estp.2015.6.0102
  • Thompson, N. A., & Weiss, D.J. (2011). A Framework for the development of computerized adaptive tests. Practical Assessment, Research & Evaluation, 16(1), 1-9. Retrieved from: http://pareonline.net/getvn.asp?v=16&n=1
  • van der Linden, W. J. (1998). Bayesian item selection criteria for adaptive testing. Psychometrika, 63, 201-216. http://dx.doi.org/10.1007/BF02294775
  • van Rijn, P., Eggen, T. J., Hemker, B. T., & Sanders, P. F. (2002). Evaluation of selection procedures for computerized adaptive testing with polytomous items. Applied Psychological Measurement, 26, 393-411. http://dx.doi.org/10.1177/014662102237796 Veerkamp, W. J .J. & Berger, M. P. F. (1997). Some new item selection criteria for adaptive testing. Journal of Educational and Behavioral Statistics, 22(2), 203-226. Retrieved from http://www.jstor.org/stable/1165378
  • Veldkamp, B. P. (2003). Item selection in polytomous CAT. In H. Yanai, A. Okada, K. Shigemasu, Y. Kano, & J.J. Meulman (Eds.), New developments in psychometrics (pp. 207-214). Tokyo, Japan: Springer-Verlag.
  • Weiss, D. J. (1983). Final Report: Computer-Based Measurement of Intellectual Capabilities. University of Minnesota, Department of Psychology. Retrieved from the University of Minnesota Digital Conservancy, http://hdl.handle.net/11299/135261
  • Weissman, A. (2006). A Feedback control strategy for enhancing item selection efficiency in computerized adaptive testing. Applied Psychological Measurement, 30(2), 87-99. http://dx.doi.org /10.1177/0146621605282774
There are 21 citations in total.

Details

Primary Language English
Journal Section Articles
Authors

Alper Sahın

Durmus Ozbasi Durmus Ozbası

Publication Date May 20, 2017
Published in Issue Year 2017 Volume: 17 Issue: 69

Cite

APA Sahın, A., & Durmus Ozbası, D. O. (2017). Effects of Content Balancing and Item Selection Method on Ability Estimation in Computerized Adaptive Tests. Eurasian Journal of Educational Research, 17(69), 21-36.
AMA Sahın A, Durmus Ozbası DO. Effects of Content Balancing and Item Selection Method on Ability Estimation in Computerized Adaptive Tests. Eurasian Journal of Educational Research. May 2017;17(69):21-36.
Chicago Sahın, Alper, and Durmus Ozbasi Durmus Ozbası. “Effects of Content Balancing and Item Selection Method on Ability Estimation in Computerized Adaptive Tests”. Eurasian Journal of Educational Research 17, no. 69 (May 2017): 21-36.
EndNote Sahın A, Durmus Ozbası DO (May 1, 2017) Effects of Content Balancing and Item Selection Method on Ability Estimation in Computerized Adaptive Tests. Eurasian Journal of Educational Research 17 69 21–36.
IEEE A. Sahın and D. O. Durmus Ozbası, “Effects of Content Balancing and Item Selection Method on Ability Estimation in Computerized Adaptive Tests”, Eurasian Journal of Educational Research, vol. 17, no. 69, pp. 21–36, 2017.
ISNAD Sahın, Alper - Durmus Ozbası, Durmus Ozbasi. “Effects of Content Balancing and Item Selection Method on Ability Estimation in Computerized Adaptive Tests”. Eurasian Journal of Educational Research 17/69 (May 2017), 21-36.
JAMA Sahın A, Durmus Ozbası DO. Effects of Content Balancing and Item Selection Method on Ability Estimation in Computerized Adaptive Tests. Eurasian Journal of Educational Research. 2017;17:21–36.
MLA Sahın, Alper and Durmus Ozbasi Durmus Ozbası. “Effects of Content Balancing and Item Selection Method on Ability Estimation in Computerized Adaptive Tests”. Eurasian Journal of Educational Research, vol. 17, no. 69, 2017, pp. 21-36.
Vancouver Sahın A, Durmus Ozbası DO. Effects of Content Balancing and Item Selection Method on Ability Estimation in Computerized Adaptive Tests. Eurasian Journal of Educational Research. 2017;17(69):21-36.