Bu çalışmada zaman serilerinin ağ tabanlı temsili için bir çerçeve sunulmuştur. Önerilen yöntemde öncelikle, zaman domenindeki sinyaller %50 örtüşmeli sabit genişlikli zaman pencerelerine bölünerek segmentasyon işlemi tamamlanır. Her segment, ana sinyalin mutlak maksimum genlik değerinin ve negatif karşılığının tanımladığı aralık baz alınarak normalize edilir ve normalize sinyaller 2^n seviyesine kuantize edilir. 3 farklı atlama değerinin ifade ettiği 3 kanaldan ilerleyen bu dönüşüm, kanalların katmanlar şeklinde birleştirilmesiyle düşey bir RGB görüntü temsilini oluşturur. Sinyalin her zaman penceresinden elde edilen bu düşey RGB imajlarının yan yana döşenmesinin sonucunda yatay eksenin zamanı ve düşey eksenin sinyal dalgalanmalarını temsil ettiği VarioGram olarak adlandırılan bir zaman-graf temsili elde edilmiş olur. Çevresel ses sınıflandırma problemlerinde sıklıkla kullanılan ESC-10 veri setindeki ses sinyallerinin dönüşümü ile elde edilen VarioGram temsilleri bir ResNet modeline girdi olarak verildiğinde %82.08’lik bir sınıflandırma başarısı elde edilmiş, mel-spectrogram görüntüleri ile hibritleştirilerek kullanılan VarioGram temsilleri ile bu başarı %93.33’e kadar çıkarılmıştır. Dolayısıyla VarioGram temsilleri, tek başına mel-spectrogram ile elde edilebilen en yüksek sınıflandırma başarısını küçük bir farkla iyileştirme yönünde etki yapmıştır.
Graf temsili Ses sınıflandırma Zaman serilerinin sınıflandırılması Karmaşık ağlar
In this study, a framework for network-based representation of time series is presented. In the proposed method, initially, a segmentation procedure is completed by dividing the signals in the time domain into fixed-width time windows with 50% overlap. Each segment is normalized based on the range defined by the absolute maximum amplitude value of the main signal and its negative counterpart, and the normalized signals are quantized to 2^n levels. This transformation, proceeding through 3 channels expressed by 3 different jump values, generates a vertical RGB image representation by combining the channels in layers. As a result of tiling these vertical RGB images from each time window horizontally, a time-graph representation called VarioGram is obtained, where the horizontal axis represents time, and the vertical axis represents signal fluctuations. Feeding a ResNet model with VarioGram representations obtained by the transformation of the audio signals in the ESC-10 dataset which is frequently used in environmental sound classification problems, a classification success of 82.08% has been obtained, while this success has been 93.33% with the VarioGram representations hybridized with mel-spectrogram images. The VarioGram representations therefore acted to slightly improve the highest classification success achievable with the mel-spectrogram alone.
Graph representation Sound classification Time-series classification Complex networks
Birincil Dil | İngilizce |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 28 Aralık 2022 |
Gönderilme Tarihi | 20 Eylül 2022 |
Kabul Tarihi | 3 Kasım 2022 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 4 Sayı: 2 |
Bilgi ve İletişim Teknolojileri Dergisi (BİTED)
Journal of Information and Communication Technologies