Kurumsal
şirketlerde, yazılımlardaki hatalar ve değişiklik talepleri genellikle bir
talep yönetim sistemi üzerinden Bilgi Teknolojileri (BT) birimine iletilir. Bu
sistemde yer alan öncelik bilgisi BT birimi için kritik öneme sahiptir. Ancak,
talebi giren kişilerin inisiyatifine bırakılan öncelik kararı her zaman
gerçekçi olmamaktadır. Örneğin, kritik olmayan ve düşük öncelikli bir
değişiklik talebi yüksek öncelikli olarak girilebilmekte, bu da hatalı planlama
ve müşteri memnuniyetsizliği ile sonuçlanabilmektedir. Bu çalışmada, iç müşteri
talepleri metin madenciliği yöntemleriyle sınıflandırılarak taleplerin önem
derecesi tahmin edilmeye çalışılmıştır. Sistemin eğitimi ve testi için kurumsal
bir şirketin talep yönetim sisteminden alınan kayıtlar kullanılmıştır. Ham
metin formundaki talep verisi üzerinde temizlik ve önişleme işlemlerinin
ardından, doküman-terim matrisinin oluşturulmasında TF-IDF (Terim Frekansı –
Ters Doküman Frekansı) ağırlıklandırma yönteminden yararlanılmıştır.
Oluşturulan veri seti üzerinde çeşitli sınıflandırma algoritmaları test edilmiş
ve en yüksek başarım %54.1 F-Skoru ile Sequential Minimal Optimization
algoritmasıyla elde edilmiştir. Ayrıca, aşırı örnekleme yoluyla sınıfların
dengeli hale getirildiği veri seti üzerinde ise en yüksek başarıma %74.5
F-Skoru değeri ile Random Forest algoritmasıyla ulaşılmıştır.
Yazılım mühendisliği Talep önceliklendirme Yapay öğrenme Metin sınıflandırma Random forest
In
corporations, software issues and software change demands are forwarded to the
Information Technology (IT) unit via a demand management system. The priority
information in this system has critical importance to the IT unit. However, the
priority decision that is left to the individuals who create the demand records
may not always be realistic. For instance, a non-critical and low-priority
demand may be created with the highest priority, and this may lead to faulty
planning and eventually to customer dissatisfaction. In this work, internal
customer demands were classified using text mining techniques and their
priorities were predicted. The system was trained and tested with the records
extracted from the demand management system of a corporation. After cleaning
and preprocessing the raw textual demand data, TF-IDF (Term Frequency – Inverse
Document Frequency) weighting scheme was used when creating the document-term
matrix. Several classification algorithms were tested on the data set
generated, and the highest performance was obtained by Sequential Minimal
Optimization algorithm with 54.1% F-Score. In addition, on the dataset made
balanced with oversampling technique, the highest performance was achieved by
Random Forest algorithm with 74.5% F-Score.
Software engineering Demand prioritization Machine learning Text classification Random forest
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makale |
Yazarlar | |
Yayımlanma Tarihi | 21 Ekim 2019 |
Yayımlandığı Sayı | Yıl 2019 Cilt: 25 Sayı: 5 |