Teknolojinin giderek büyümesi, dijital ortamdaki mevcut veri miktarının artmasına neden olmuştur. Bu durum, kullanıcıların bu geniş veri kümesi içinde aradıkları bilgiyi bulmalarını zorlaştırmakta ve zaman alıcı hale getirmektedir. Bu zorluğu hafifletmek için, klasik özetleme tekniklerine kıyasla daha verimli bir şekilde metinlerdeki ilgili bilgiye erişmenin bir yolu olarak otomatik metin özetleme sistemleri geliştirilmiştir. Bu çalışma, COVID-19 hakkında yazılmış Türkçe tıp makalelerinin genişletilmiş özetlerini çıkarmayı amaçlamaktadır. Bilimsel makalelerin hâli hazırda özetleri olmasına rağmen, daha kapsamlı özetlere de ihtiyaç duyulmaktadır. Türkçe dilinde COVID-19 ile ilgili akademik çalışmaların otomatik özetlemesi bildiğimiz kadarıyla daha önce yapılmamıştır. DergiPark'tan 84 adet Türkçe araştırma ve derleme makalesi alınarak bir veri kümesi oluşturulmuştur. Toplanan veri kümesinden, yaygın olarak kullanılan çıkarımsal yöntemlerden olan Terim Frekansı ve LexRank algoritmaları kullanılarak 2455 ve 1708 karakterlik genişletilmiş özetler elde edilmiştir. Metin özetleme modelinin performansı, Duyarlılık, Kesinlik ve F-skoru ölçütlerine göre değerlendirilmiş ve algoritmaların Türkçe için etkili olduğu gösterilmiştir. Çalışmanın sonuçları, literatürdeki önceki çalışmalarla benzer doğruluk oranları göstermiştir.
The rapid growth of technology has led to an increase in the amount of data available in the digital environment. This situation makes it difficult for users to find the information they are looking for within this vast dataset, making it time-consuming. To alleviate this difficulty, automatic text summarization systems have been developed as a more efficient way to access relevant information in texts compared to traditional summarization techniques. This study aims to extract extended summaries of Turkish medical papers written about COVID-19. Although scientific papers already have abstracts, more comprehensive summaries are still needed. To the best of our knowledge, automatic summarization of academic studies related to COVID-19 in the Turkish language has not been done before. A dataset was created by collecting 84 Turkish papers from DergiPark. Extended summaries of 2455 and 1708 characters were obtained using widely used extractive methods such as Term Frequency and LexRank algorithms, respectively. The performance of the text summarization model was evaluated based on Recall, Precision, and F-score criteria, and the algorithms were shown to be effective for Turkish. The results of the study showed similar accuracy rates to previous studies in the literature.
Primary Language | English |
---|---|
Subjects | Artificial Intelligence |
Journal Section | Research Articles |
Authors | |
Early Pub Date | May 31, 2023 |
Publication Date | August 9, 2023 |
Submission Date | March 6, 2023 |
Acceptance Date | May 26, 2023 |
Published in Issue | Year 2023 Volume: 4 Issue: 1 |