Aim: Automatic item generation is "a process of using models to generate items using computer technology". The use of automatic item generation typically involves one of three primary methods: syntax-based, semantic-based, and template-based. Non-template automatic item generation approaches leverage natural language processing techniques. A study showed the potential of using template-based automatic item generation to create high-quality multiple-choice questions for assessing clinical reasoning in Turkish, marking a first in the field. However, the findings of the study were based only on expert opinions, necessitating further research to examine the psychometric qualities of Turkish items. The aim of this study was to reveal psychometric characteristics of the first Turkish case-based multiple-choice questions generated by using automatic item generation in medical education.
Methods: This was a psychometric study. Three Turkish case-based multiple-choice questions generated using template-based automatic item generation on essential hypertension were included in an exam that 281 fourth-year medical students participate in. This examination was carried out in-person in classroom settings under proctor supervision. Item difficulty and item discrimination (point-biserial correlation) were calculated, and non-functioning distractors were determined.
Results: All three items had acceptable levels (higher than 0.20) of point-biserial correlation (p<0.001). The item difficulty levels indicated the presence of one easy, one moderate, and one difficult question. Each item had 2-3 non-functioning options among five options. All three items had acceptable levels (higher than 0.20) of point-biserial correlation (p<0.001). The item difficulty levels indicated the presence of one easy, one moderate, and one difficult question. Each item had 2-3 non-functioning options among five options.
Conclusions: The results indicated that the items successfully discriminate between high and low performers, providing validity evidence on the quality of the questions in evaluating students' comprehension of the subject. Additionally, the findings suggest that it is feasible to create multiple-choice questions with different difficulty levels in Turkish using a single automatic item generation model. This study demonstrated for the first time that automatic generation of case-based multiple-choice questions in Turkish produces acceptable psychometric characteristics in an authentic assessment setting in medical education. The ability to automatically generate effective multiple-choice questions in Turkish holds promise for enhancing the efficiency of written assessment in Turkish medical education.
Automatic Item Generation Automatic Question Generation Psychometric Analysis Clinical Reasoning Medical Education
Amaç: Otomatik soru (madde) üretimi "bilgisayar teknolojisini kullanarak madde üretmek için model kullanma süreci” olarak tanımlanır. Otomatik soru üretimi kullanımı tipik olarak üç temel yöntemden birini içerir: sözdizimi tabanlı, anlamsal tabanlı ve şablon tabanlı. Şablon tabanlı olmayan otomatik soru üretimi yaklaşımları doğal dil işleme tekniklerinden faydalanır. Bir çalışma, Türkçede klinik akıl yürütme becerisini değerlendirmek için yüksek kaliteli çoktan seçmeli sorular oluşturmak üzere şablon tabanlı otomatik soru üretimi yöntemi kullanımının potansiyelini göstererek bu alanda ilk çalışma olmuştur. Bununla birlikte, çalışmanın bulguları yalnızca uzman görüşlerine dayanmaktadır ve Türkçe soruların psikometrik niteliklerini incelemek için daha fazla araştırma yapılması gerekmektedir. Bu çalışmanın amacı, tıp eğitiminde otomatik soru üretimi kullanılarak oluşturulan ilk Türkçe olguya dayalı çoktan seçmeli soruların psikometrik özelliklerini ortaya koymaktır.
Yöntem: Bu çalışma psikometrik bir çalışmadır. Esansiyel hipertansiyon konusunda şablon tabanlı otomatik soru üretimi kullanılarak oluşturulan üç Türkçe olguya dayalı çoktan seçmeli soru, 281 dördüncü sınıf tıp öğrencisinin katıldığı bir sınava dahil edildi. Bu sınav gözetmen denetiminde sınıf ortamında yüz yüze gerçekleştirildi. Madde güçlüğü ve madde ayırt ediciliği (point-biserial korelasyon) hesaplandı ve işlevsel olmayan çeldiriciler belirlendi.
Bulgular: Her üç madde de kabul edilebilir düzeyde (0.20'den yüksek) point-biserial korelasyona sahipti (p<0.001). Madde güçlük düzeyleri bir kolay, bir orta ve bir zor sorunun varlığına işaret etmekteydi. Her madde beş seçenek arasında 2-3 işlevsel olmayan seçeneğe sahipti.
Sonuç: Bulgular, maddelerin yüksek ve düşük performans gösteren öğrencileri başarılı bir şekilde ayırt ettiğini ve öğrencilerin konuyu anlamalarını değerlendirmede soruların kalitesine ilişkin geçerlilik kanıtı sağladığını göstermiştir. Ayrıca bulgular, tek bir otomatik soru üretimi modeli kullanarak Türkçede farklı zorluk seviyelerine sahip çoktan seçmeli sorular oluşturmanın mümkün olduğunu göstermektedir. Bu çalışma, Türkçe olguya dayalı çoktan seçmeli soruların otomatik olarak oluşturulmasının tıp eğitiminde otantik bir değerlendirme ortamında kabul edilebilir psikometrik özellikler ürettiğini ilk kez göstermiştir. Kaliteli çoktan seçmeli Türkçe soruların otomatik olarak üretilebilmesi, Türkçe tıp eğitiminde yazılı ölçme-değerlendirmenin verimliliğini artırma konusunda umut vaat etmektedir.
Otomatik Madde Üretimi Otomatik Soru Üretimi Psikometrik Analiz Klinik Akıl Yürütme Tıp Eğitimi
Birincil Dil | İngilizce |
---|---|
Konular | Tıp Eğitimi |
Bölüm | Orjinal Araştırma |
Yazarlar | |
Yayımlanma Tarihi | 31 Aralık 2023 |
Gönderilme Tarihi | 17 Ekim 2023 |
Kabul Tarihi | 15 Kasım 2023 |
Yayımlandığı Sayı | Yıl 2023 |