Psychometric Analysis of the First Turkish Multiple-Choice Questions Generated Using Automatic Item Generation Method in Medical Education

Yavuz Selim Kıyak; Özlem Coşkun; Işıl İrem Budakoğlu; Canan Uluoğlu

doi:10.25282/ted.1376840

Araştırma Makalesi

Psychometric Analysis of the First Turkish Multiple-Choice Questions Generated Using Automatic Item Generation Method in Medical Education

Yıl 2023, , 154 - 161, 31.12.2023

Yavuz Selim Kıyak , Özlem Coşkun , Işıl İrem Budakoğlu , Canan Uluoğlu

https://doi.org/10.25282/ted.1376840

Cited By: 1

Öz

Aim: Automatic item generation is "a process of using models to generate items using computer technology". The use of automatic item generation typically involves one of three primary methods: syntax-based, semantic-based, and template-based. Non-template automatic item generation approaches leverage natural language processing techniques. A study showed the potential of using template-based automatic item generation to create high-quality multiple-choice questions for assessing clinical reasoning in Turkish, marking a first in the field. However, the findings of the study were based only on expert opinions, necessitating further research to examine the psychometric qualities of Turkish items. The aim of this study was to reveal psychometric characteristics of the first Turkish case-based multiple-choice questions generated by using automatic item generation in medical education.
Methods: This was a psychometric study. Three Turkish case-based multiple-choice questions generated using template-based automatic item generation on essential hypertension were included in an exam that 281 fourth-year medical students participate in. This examination was carried out in-person in classroom settings under proctor supervision. Item difficulty and item discrimination (point-biserial correlation) were calculated, and non-functioning distractors were determined.
Results: All three items had acceptable levels (higher than 0.20) of point-biserial correlation (p<0.001). The item difficulty levels indicated the presence of one easy, one moderate, and one difficult question. Each item had 2-3 non-functioning options among five options. All three items had acceptable levels (higher than 0.20) of point-biserial correlation (p<0.001). The item difficulty levels indicated the presence of one easy, one moderate, and one difficult question. Each item had 2-3 non-functioning options among five options.
Conclusions: The results indicated that the items successfully discriminate between high and low performers, providing validity evidence on the quality of the questions in evaluating students' comprehension of the subject. Additionally, the findings suggest that it is feasible to create multiple-choice questions with different difficulty levels in Turkish using a single automatic item generation model. This study demonstrated for the first time that automatic generation of case-based multiple-choice questions in Turkish produces acceptable psychometric characteristics in an authentic assessment setting in medical education. The ability to automatically generate effective multiple-choice questions in Turkish holds promise for enhancing the efficiency of written assessment in Turkish medical education.

Anahtar Kelimeler

Automatic Item Generation, Automatic Question Generation, Psychometric Analysis, Clinical Reasoning, Medical Education

Kaynakça

3.Schuwirth LWT, van der Vleuten CPM. Different written assessment methods: what can be said about their strengths and weaknesses? Med Educ. 2004 Sep;38(9):974–9.
4. Wrigley W, Van Der Vleuten CP, Freeman A, Muijtjens A. A systemic framework for the progress test: Strengths, constraints and issues: AMEE Guide No. 71. Medical Teacher. 2012 Sep;34(9):683–97.

Tıp Eğitiminde Otomatik Soru Üretme Yöntemi Kullanılarak Oluşturulan İlk Türkçe Çoktan Seçmeli Soruların Psikometrik Analizi

Yıl 2023, , 154 - 161, 31.12.2023

Yavuz Selim Kıyak , Özlem Coşkun , Işıl İrem Budakoğlu , Canan Uluoğlu

https://doi.org/10.25282/ted.1376840

Cited By: 1

Öz

Amaç: Otomatik soru (madde) üretimi "bilgisayar teknolojisini kullanarak madde üretmek için model kullanma süreci” olarak tanımlanır. Otomatik soru üretimi kullanımı tipik olarak üç temel yöntemden birini içerir: sözdizimi tabanlı, anlamsal tabanlı ve şablon tabanlı. Şablon tabanlı olmayan otomatik soru üretimi yaklaşımları doğal dil işleme tekniklerinden faydalanır. Bir çalışma, Türkçede klinik akıl yürütme becerisini değerlendirmek için yüksek kaliteli çoktan seçmeli sorular oluşturmak üzere şablon tabanlı otomatik soru üretimi yöntemi kullanımının potansiyelini göstererek bu alanda ilk çalışma olmuştur. Bununla birlikte, çalışmanın bulguları yalnızca uzman görüşlerine dayanmaktadır ve Türkçe soruların psikometrik niteliklerini incelemek için daha fazla araştırma yapılması gerekmektedir. Bu çalışmanın amacı, tıp eğitiminde otomatik soru üretimi kullanılarak oluşturulan ilk Türkçe olguya dayalı çoktan seçmeli soruların psikometrik özelliklerini ortaya koymaktır.
Yöntem: Bu çalışma psikometrik bir çalışmadır. Esansiyel hipertansiyon konusunda şablon tabanlı otomatik soru üretimi kullanılarak oluşturulan üç Türkçe olguya dayalı çoktan seçmeli soru, 281 dördüncü sınıf tıp öğrencisinin katıldığı bir sınava dahil edildi. Bu sınav gözetmen denetiminde sınıf ortamında yüz yüze gerçekleştirildi. Madde güçlüğü ve madde ayırt ediciliği (point-biserial korelasyon) hesaplandı ve işlevsel olmayan çeldiriciler belirlendi.
Bulgular: Her üç madde de kabul edilebilir düzeyde (0.20'den yüksek) point-biserial korelasyona sahipti (p<0.001). Madde güçlük düzeyleri bir kolay, bir orta ve bir zor sorunun varlığına işaret etmekteydi. Her madde beş seçenek arasında 2-3 işlevsel olmayan seçeneğe sahipti.
Sonuç: Bulgular, maddelerin yüksek ve düşük performans gösteren öğrencileri başarılı bir şekilde ayırt ettiğini ve öğrencilerin konuyu anlamalarını değerlendirmede soruların kalitesine ilişkin geçerlilik kanıtı sağladığını göstermiştir. Ayrıca bulgular, tek bir otomatik soru üretimi modeli kullanarak Türkçede farklı zorluk seviyelerine sahip çoktan seçmeli sorular oluşturmanın mümkün olduğunu göstermektedir. Bu çalışma, Türkçe olguya dayalı çoktan seçmeli soruların otomatik olarak oluşturulmasının tıp eğitiminde otantik bir değerlendirme ortamında kabul edilebilir psikometrik özellikler ürettiğini ilk kez göstermiştir. Kaliteli çoktan seçmeli Türkçe soruların otomatik olarak üretilebilmesi, Türkçe tıp eğitiminde yazılı ölçme-değerlendirmenin verimliliğini artırma konusunda umut vaat etmektedir.

Anahtar Kelimeler

Otomatik Madde Üretimi, Otomatik Soru Üretimi, Psikometrik Analiz, Klinik Akıl Yürütme, Tıp Eğitimi

Kaynakça

3.Schuwirth LWT, van der Vleuten CPM. Different written assessment methods: what can be said about their strengths and weaknesses? Med Educ. 2004 Sep;38(9):974–9.
4. Wrigley W, Van Der Vleuten CP, Freeman A, Muijtjens A. A systemic framework for the progress test: Strengths, constraints and issues: AMEE Guide No. 71. Medical Teacher. 2012 Sep;34(9):683–97.

Toplam 2 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	İngilizce
Konular	Tıp Eğitimi
Bölüm	Orjinal Araştırma
Yazarlar	Yavuz Selim Kıyak 0000-0002-5026-3234 Özlem Coşkun 0000-0001-8716-1584 Işıl İrem Budakoğlu 0000-0003-1517-3169 Canan Uluoğlu 0000-0003-0682-5794
Yayımlanma Tarihi	31 Aralık 2023
Gönderilme Tarihi	17 Ekim 2023
Kabul Tarihi	15 Kasım 2023
Yayımlandığı Sayı	Yıl 2023

Kaynak Göster

Vancouver	Kıyak YS, Coşkun Ö, Budakoğlu Iİ, Uluoğlu C. Psychometric Analysis of the First Turkish Multiple-Choice Questions Generated Using Automatic Item Generation Method in Medical Education. TED. 2023;22(68):154-61.

Tıp Eğitimi Dünyası

Psychometric Analysis of the First Turkish Multiple-Choice Questions Generated Using Automatic Item Generation Method in Medical Education

Öz

Anahtar Kelimeler

Kaynakça

Tıp Eğitiminde Otomatik Soru Üretme Yöntemi Kullanılarak Oluşturulan İlk Türkçe Çoktan Seçmeli Soruların Psikometrik Analizi

Öz

Anahtar Kelimeler

Kaynakça

Ayrıntılar

Kaynak Göster

Cited By

Multilingual Template-based Automatic Item Generation for Medical Education Supported by Generative Artificial Intelligence Models ChatGPT and Claude

Bio-Algorithms and Med-Systems

https://doi.org/10.5604/01.3001.0054.9192