Music genre recognition is one of the main problems in infotainment tools and music streaming service providers for different tasks such as music selection, classification, recommendation, and personal list creation. Automatic genre recognition systems can be useful for different music-based systems, especially different music platforms. Therefore, this study aimed to classify music genres using machine learning. In this context, GTZAN dataset consisting of 10 classes was used. In this dataset, data augmentation was applied by segmentation. Each record of 30 seconds was divided into 10 parts, increasing the number of samples in the dataset by a factor of 10. Then, features were extracted from the audio signals. The resulting features are chroma, harmony, mel frequency cepstral coefficients, perceptr, root mean square, roll-off, spectral centroid, tempo, and zero crossing rate. The types, variances, and averages of the obtained features were used. Thus, 57 features were obtained. This feature set was pre-processed by delimiting the decimal part, standardization, and label encoding. In the last step, classification was made with different machine learning methods and the results were compared. As a result of hyperparameter optimization in the Extra Tree model, 92.3% performance was achieved. Precision recall and f-score values are 92.4%, 92.3%, and 92.3%, respectively. As a result, an efficient and high-performance model in music genre recognition was created.
Machine learning Music genre recognition Extra tree classifier Segmentation
Müzik türü tanıma, müzik seçimi, sınıflandırma, öneri ve kişisel liste oluşturma gibi farklı görevler için bilgi-eğlence araçlarında ve müzik akışı servis sağlayıcılarında ana sorunlardan biridir. Otomatik tür tanıma sistemleri, farklı müzik tabanlı sistemler, özellikle farklı müzik platformları için yararlı olabilir. Bu sebeple, bu çalışmada makine öğrenmesi kullanılarak müzik türlerinin sınıflandırılması amaçlanmıştır. Bu kapsamda 10 sınıftan oluşan GTZAN veri seti kullanılmıştır. Bu veri setinde, segmentasyon ile veri büyütme uygulanmıştır. 30 saniyelik her kayıt 10 parçaya bölünerek veri kümesindeki örnek sayısı 10 kat artırılmıştır. Daha sonra da ses sinyallerinden öznitelikler çıkarılmıştır. Ortaya çıkan öznitelikler, renk, uyum, mel frekansı kepstral katsayıları, algılayıcı, kök kare ortalama, yuvarlama, spektral merkez, tempo ve sıfır geçiş oranıdır. Elde edilen özniteliklerin türleri, varyansları ve ortalamaları kullanılmıştır. Böylece 57 öznitelik elde edilmiştir. Bu öznitelik seti, ondalık bölümün sınırlandırılması, standardizasyon ve etiket kodlaması ile önceden işlenmiştir. Son adımda ise farklı makine öğrenmesi yöntemleri ile sınıflandırma yapılmış ve sonuçlar karşılaştırılmıştır. Extra Tree modelinde hiperparametre optimizasyonu sonucunda %92,3 performans elde edilmiştir. Kesinlik, hatırlama ve f-skoru değerleri sırasıyla %92,4, %92,3 ve %92,3'tür. Sonuçta, müzik türü tanımada verimli ve yüksek başarıma sahip bir model ortaya çıkarılmıştır.
Makine öğrenmesi Müzik tür tanıma Ekstra ağaç sınıflandırma Bölünme
Birincil Dil | İngilizce |
---|---|
Konular | İnsan Bilgisayar Etkileşimi, Bilgisayar Yazılımı |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 18 Ekim 2023 |
Yayımlandığı Sayı | Yıl 2023 Cilt: 38 Sayı: 3 |