Çevresel faaliyetlerin sonuçlarını tahmin edebilecek ve aynı zamanda bu faaliyetlerin ortamı hakkında bilgi edinile bilinmesi için ses verisinin kullanılması çok önemlidir. Kentlerde meydana gelen gürültü kirliliği, güvenlik sistemleri, sağlık hizmetleri ve yerel hizmetler gibi faaliyetlerin işleyişini ve temel bilgilerini elde etmek için ses verisinden faydalanılmaktadır. Bu anlamda Çevresel Seslerin Sınıflandırması (ÇSS) kritik önem kazanmaktadır. Artan veri miktarı ve çözümlemedeki zaman kısıtlamalarından dolayı anlık otomatik olarak seslerin tanımlanmasını sağlayan yeni ve güçlü yapay zekâ yöntemlerine ihtiyaç duyulmaktadır. Bu sebeple yapılan çalışmada iki farklı ÇSS veri setinin sınıflandırılması için yeni bir yötem önerilmiştir. Bu yöntemde ilk olarak sesler görüntü formatına çevrilmiştir. Daha sonra görüntü formatındaki bu sesler için özgün Evrişimsel Sinir Ağları (ESA) modelleri tasarlanmıştır. Her bir veri seti için özgün olarak tasarlanan birden fazla ESA modelleri içerisinden en yüksek doğruluk oranına sahip ESA modelleri elde edilmiştir. Bu veri setleri sırasıyla ESC10 ve UrbanSound8K veri setleridir. Bu veri setlerindeki ses kayıtları 32x32x3 ve 224x224x3 boyutuna sahip görüntü formatına çevrilmiştir. Böylelikle toplamda 4 farklı görüntü formatında veri seti elde edilmiştir. Bu veri setlerini sınıflandırılması için geliştirilen özgün ESA modelleri sırasıyla, ESC10_ESA32, ESC10_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 olarak isimlendirilmiştir. Bu modeller veri setleri üzerinde 10-Kat Çapraz Doğrulama yapılarak eğitilmiştir. Elde edilen sonuçlarda, ESC10_ESA32, ESC10_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 modellerinin ortalama doğruluk oranları sırasıyla %80,75, %82,25, %88,60 ve %84,33 olarak elde edilmiştir. Elde edilen sonuçlar aynı veri setleri üzerinde literatürde yapılan diğer temel çalışmalarla karşılaştırıldığında önerilen modellerin daha iyi sonuçlar elde ettiği görülmüştür.
Derin Öğrenme Evrişimsel Sinir Ağı Çevresel Ses Sınıflandırılması (ÇSS) ESC10 UrbanSound8K Deep Learning Convolutional Neural Network Environmental Sound Classification
The use of sound data is critical for predicting the effects of environmental activities and gathering information about the environment of these activities. Sound data is utilized to obtain basic information about the functioning of urban activities such as noise pollution, security systems, health care, and local services. In this sense, Environmental Sound Classification (ESC) is becoming critical. Due to the increasing amount of data and time constraints in analysis, there is a need for new and powerful artificial intelligence methods that enable instant automatic identification of sounds. These methods can be developed with Convolutional Neural Networks (CNN) models, which have achieved high accuracy rates in other fields. For this reason, in this study, a new CNN based method is proposed for the classification of two different CSR datasets. In this method, the sounds are first converted into image format. Then, novel ESA models are designed for the classification of these sounds in image format. For each dataset, the ESA models with the highest accuracy rate were obtained among the multiple ESA models designed. The datasets used in the study are ESC10 and UrbanSound8K, respectively. The sound recordings in thesedatasets were converted to image format with 32x32x3 and 224x224x3 dimensions, and four different image format datasets were obtained. The CNN models developed to classify these datasets are named ESC10_ESA32, ESC10_ESA224, URBANSOUND8K_ESA32, and URBANSOUND8K_ESA224, respectively. These models were trained on the datasets using 10-fold cross-validation. In the obtained results, the average accuracy rates of the ESC10_ESA32, ESC10_ESA224, URBANSOUND8K_ESA32, and URBANSOUND8K_ESA224 models are 80.75%, 82.25%, 88.60%, and 84.33%, respectively. When these results are compared with other baseline studies in the literature on the same datasets, it is seen that these models achieve better results.
Deep Learning Convolutional Neural Network Environmental Sound Classification ESC10 UrbanSound8K
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Research Article |
Authors | |
Publication Date | June 1, 2023 |
Submission Date | November 9, 2022 |
Acceptance Date | March 16, 2023 |
Published in Issue | Year 2023 Volume: 11 Issue: 2 |