Konuşmadan Duygu Tanıma Üzerine Detaylı bir İnceleme: Özellikler ve Sınıflandırma Metotları

Emel Çolakoğlu; Serhat Hızlısoy; Recep Sinan Arslan

doi:10.31590/ejosat.1039403

Derleme

Konuşmadan Duygu Tanıma Üzerine Detaylı bir İnceleme: Özellikler ve Sınıflandırma Metotları

Yıl 2021, Sayı: 32, 471 - 483, 31.12.2021

Emel Çolakoğlu , Serhat Hızlısoy , Recep Sinan Arslan

https://doi.org/10.31590/ejosat.1039403

Cited By: 2

Öz

Konuşma insanlar arasındaki hızlı ve en doğal iletişim yöntemlerindendir. Konuşmadan duygu tanıma çalışmaları, konuşma sırasında çıkan ses sinyalinden anlam bilgisini elde etmeye çalışmaktadırlar. Son yıllarda konuşma sinyalleri üzerinden duygu analizi ile ilgili olarak birçok çalışma yapılmıştır. Bu çalışmalarda duygu analizinde 3 önemli yön dikkate alınarak detaylı bir araştırma yapılmıştır. Birinci konu konuşma sinyallerinden öznitelik çıkarma, ikinci konu bu özniteliklerden sınıflandırmaya olumlu katkısı olacakların seçimi ve üçüncü konu ise sınıflandırma şemalarının tasarımı ve performans değerlendirmesidir. Özniteliklerin doğru belirlenmesi, öznitelikler üzerinde seçme işleminin başarılı bir şekilde uygulanması performansı büyük ölçüde etkilemektedir. Ancak sesten özniteliklerin çıkarılması, ve sınıflandırılmasında farklı yöntemler tercih edilse de performans veri setlerine, duygu durumlarına, dillere, eğitim setinin kullanım yöntemine göre değişebilmektedir. İncelenen makaleler kapsamında sınıflandırıcı olarak en sık SVM ve öznitelik olarak da MFCC kullanılmıştır. En yüksek tanıma oranı ise TESS veri setinde oto-kodlayıcı ve Alex-net CNN ile sağlanmış ve %98 başarı elde edilmiştir.

Anahtar Kelimeler

Konuşmadan Duygu Tanıma, Derleme, Öznitelik Çıkarım Teknikleri, Sınıflandırma

Kaynakça

Ancilin, J., & Milton, A. (2021). Improved speech emotion recognition with Mel frequency magnitude coefficient. Applied Acoustics, 179, 108046.
Aouani, H., & Ayed, Y. B. (2020). Speech emotion recognition with deep learning. Procedia Computer Science, 176, 251-260.
Atila, O., & Şengür, A. (2021). Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition. Applied Acoustics, 182, 108260.
Bhavan, A., Chauhan, P., & Shah, R. R. (2019). Bagged support vector machines for emotion recognition from speech. Knowledge-Based Systems, 184, 104886.
Durukal, M., & Hocaoğlu, A. K. (2015, May). Performance optimization on emotion recognition from speech. In 2015 23nd Signal Processing and Communications Applications Conference (SIU) (pp. 308-311). IEEE.
Fayek, H. M., Lech, M., & Cavedon, L. (2017). Evaluating deep learning architectures for Speech Emotion Recognition. Neural Networks, 92, 60-68.
GÖKALP, S., & AYDIN, İ. (2021). Farklı Derin Sinir Ağı Modellerinin Duygu Tanımadaki Performanslarının Karşılaştırılması. Muş Alparslan Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 2(1), 35-43.
Hızlısoy, S. & Tüfekci, Z. (2020). Türkçe Müzikten Duygu Tanıma. Avrupa Bilim ve Teknoloji Dergisi, Ejosat Special Issue 2020 (ICCEES), 6-12. DOI: 10.31590/ejosat.802169
Huang, K. Y., Wu, C. H., & Su, M. H. (2019). Attention-based convolutional neural network and long short-term memory for short-term detection of mood disorders based on elicited speech responses. Pattern Recognition, 88, 668-678.
Issa, D., Demirci, M. F., & Yazici, A. (2020). Speech emotion recognition with deep convolutional neural networks. Biomedical Signal Processing and Control, 59, 101894.
Jia, N., & Zheng, C. (2021). Two-level discriminative speech emotion recognition model with wave field dynamics: A personalized speech emotion recognition method. Computer Communications, 180, 161-170.
Korkmaz, O. E. (2016). Ses sinyalinden duygu tanıma (Doctoral dissertation, Karadeniz Teknik Üniversitesi).
Langari, S., Marvi, H., & Zahedi, M. (2020). Efficient speech emotion recognition using modified feature extraction. Informatics in Medicine Unlocked, 20, 100424. Wang, K., Su, G., Liu, L., & Wang, S. (2020). Wavelet packet analysis for speaker-independent emotion recognition. Neurocomputing, 398, 257-264.
Monica, F., & Antonella, I. (2019). Correlation Analysis. Encyclopedia of Bioinformatics and Computational Biology.
Özseven, T. (2019). Konuşma Tabanlı Duygu Tanımada Ön İşleme ve Öznitelik Seçim Yöntemlerinin Etkisi. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 10(1), 99-112.
PARLAK, C., & Banu, D. İ. R. İ. (2014). FARKLI VERİ SETLERİ ARASINDA DUYGU TANIMA ÇALIŞMASI. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, 16(48), 21-29. Parlak, C., & Diri, B. (2013). İnsan Sesinden Duygu Çıkarma. Sinyal İşleme ve Uygulamaları Kurultayı.
Pan, Y., Shen, P., & Shen, L. (2012). Speech emotion recognition using support vector machine. International Journal of Smart Home, 6(2), 101-108.
POLAT, G., & ALTUN. H. (2008). SES ÖZNİTELİK VEKTÖRLERİNİN DUYGUSAL DURUM SINIFLANDIRILMASINDA KULLANIMI.
Pourebrahim, Y., Razzazi, F., & Sameti, H. (2021). Semi-supervised parallel shared encoders for speech emotion recognition. Digital Signal Processing, 118, 103205.
Yao, Z., Wang, Z., Liu, W., Liu, Y., & Pan, J. (2020). Speech emotion recognition using fusion of three multi-task learning-based classifiers: HSF-DNN, MS-CNN and LLD-RNN. Speech Communication, 120, 11-19.
Zhao, Z., Bao, Z., Zhang, Z., Cummins, N., Sun, S., Wang, H., & Schuller, B. W. (2021). Self-attention transfer networks for speech emotion recognition. Virtual Reality & Intelligent Hardware, 3(1), 43-54.
Umut Orhan, Makine Öğrenmesi, (21, Kasım, 2021). Erişim Adresi https://bmb.cu.edu.tr/uorhan/DersNotu/Ders11.pdf
Nagesh Singh Chauhan, Naive Bayes, 22, Kasım, 2021). Erişim Adresi (https://www.kdnuggets.com/2020/06/naive-bayes-algorithm-everything.html.
Robith Gandhi, Support Vector Machine- Introduction to Machine Learning Algorithms, (20, Kasım, 2021). Erişim Adresi https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47
Betül Akpınar, Adaptif Sıralı Minimal Optimizasyon ile Destek Vektör Makinesi, (20, Kasım, 2021). Erişim Adresi https://prezi.com/m7epydjvyf37/adaptif-sral-minimal-optimizasyon-ile-destek-vektor-makine/
Mehmet Fatih Akca, Karar Agaçları, (22, Kasım, 2021). Erişim Adresi https://medium.com/deep-learning-turkiye/karar-a%C4%9Fa%C3%A7lar%C4%B1-makine-%C3%B6%C4%9Frenmesi-serisi-3-a03f3ff00ba5
Statistics Solutions Team, What is Logistic Regresssion, 26, Kasım, 2021). Erişim Adresi https://www.statisticssolutions.com/free-resources/directory-of-statistical-analyses/what-is-logistic-regression/
Mehmet Fatih Akca, RNN Nedir? Nasıl Çalışır? (26, Kasım, 2021). Erişim Adresi https://medium.com/deep-learning-turkiye/rnn-nedir-nas%C4%B1l-%C3%A7al%C4%B1%C5%9F%C4%B1r-9e5d572689e1
Protopars Team, Derin öğrenme (Deep learning) nedir?, (25, Kasım, 2021). Erişim Adresi https://www.protopars.com/derin-ogrenme-deep-learning-nedir/
TechTarget Team, Convolutional neural network, (21, Kasım, 2021). Erişim Adresi https://searchenterpriseai.techtarget.com/definition/convolutional-neural-network
Özgür Doğan, CNN (Convolutional Neural Networks) Nedir?, (22, Kasım, 2021). Erişim Adresi https://teknoloji.org/cnn-convolutional-neural-networks-nedir/
Intellipaat Team, What is LSTM, (25, Kasım, 2021). Erişim Adresi https://intellipaat.com/blog/what-is-lstm/
Veri Bilimci Ekibi, Uzun/Kısa Süreli Bellek, (17, Kasım, 2021). Erişim Adresi https://veribilimcisi.com/2017/09/26/uzun-kisa-sureli-bellek-long-short-term-memory/
Ajitesh Kumar, Gaussian Micture Models: What are they and when to use? (27, Kasım, 2021). Erişim Adresi: https://vitalflux.com/gaussian-mixture-models-what-are-they-when-to-use/
Evren Aslan, Makine Öğrenmesi- KNN Algoritması Nedir, (17, Kasım, 2021). Erişim Adresi https://medium.com/@arslanev/makine-%C3%B6%C4%9Frenmesi-knn-k-nearest-neighbors-algoritmas%C4%B1-bdfb688d7c5f
Francesco Lassig, Temporal Convolutional Networks and Forecasting (11, Kasım, 2021). Erişim Adresi https://unit8.com/resources/temporal-convolutional-networks-and-forecasting/

A Detailed Survey on Speech Emotion Recognition: Features and Classification Methods

Yıl 2021, Sayı: 32, 471 - 483, 31.12.2021

Emel Çolakoğlu , Serhat Hızlısoy , Recep Sinan Arslan

https://doi.org/10.31590/ejosat.1039403

Cited By: 2

Öz

Speech is one of the fastest and most natural communication methods between people. Emotion recognition studies without speech try to obtain semantic information from the sound signal during speech. In recent years, many studies have been carried out on emotion analysis over speech signals. In these studies, detailed research was conducted by considering 3 important aspects in sentiment analysis. The first topic is feature extraction from speech signals, the second topic is the selection of these features that will contribute positively to the classification, and the third topic is the design and performance evaluation of the classification schemes. The correct determination of the features and the successful implementation of the selection process on the features greatly affect the performance. However, although different methods are preferred in the extraction and classification of features from the voice, the performance may vary according to the data sets, moods, languages, and the method of use of the training set. Generally, among the articles examined, SVM was used as the classifier and MFCC was used as the feature. The highest recognition rate was achieved with the auto-encoder, TESS dataset and Alex-net CNN and 98% success was achieved.

Anahtar Kelimeler

Speech Emotion Recognition, Survey, Feature Reduction Techniques, Classification

Kaynakça

Ancilin, J., & Milton, A. (2021). Improved speech emotion recognition with Mel frequency magnitude coefficient. Applied Acoustics, 179, 108046.
Aouani, H., & Ayed, Y. B. (2020). Speech emotion recognition with deep learning. Procedia Computer Science, 176, 251-260.
Atila, O., & Şengür, A. (2021). Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition. Applied Acoustics, 182, 108260.
Bhavan, A., Chauhan, P., & Shah, R. R. (2019). Bagged support vector machines for emotion recognition from speech. Knowledge-Based Systems, 184, 104886.
Durukal, M., & Hocaoğlu, A. K. (2015, May). Performance optimization on emotion recognition from speech. In 2015 23nd Signal Processing and Communications Applications Conference (SIU) (pp. 308-311). IEEE.
Fayek, H. M., Lech, M., & Cavedon, L. (2017). Evaluating deep learning architectures for Speech Emotion Recognition. Neural Networks, 92, 60-68.
GÖKALP, S., & AYDIN, İ. (2021). Farklı Derin Sinir Ağı Modellerinin Duygu Tanımadaki Performanslarının Karşılaştırılması. Muş Alparslan Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 2(1), 35-43.
Hızlısoy, S. & Tüfekci, Z. (2020). Türkçe Müzikten Duygu Tanıma. Avrupa Bilim ve Teknoloji Dergisi, Ejosat Special Issue 2020 (ICCEES), 6-12. DOI: 10.31590/ejosat.802169
Huang, K. Y., Wu, C. H., & Su, M. H. (2019). Attention-based convolutional neural network and long short-term memory for short-term detection of mood disorders based on elicited speech responses. Pattern Recognition, 88, 668-678.
Issa, D., Demirci, M. F., & Yazici, A. (2020). Speech emotion recognition with deep convolutional neural networks. Biomedical Signal Processing and Control, 59, 101894.
Jia, N., & Zheng, C. (2021). Two-level discriminative speech emotion recognition model with wave field dynamics: A personalized speech emotion recognition method. Computer Communications, 180, 161-170.
Korkmaz, O. E. (2016). Ses sinyalinden duygu tanıma (Doctoral dissertation, Karadeniz Teknik Üniversitesi).
Langari, S., Marvi, H., & Zahedi, M. (2020). Efficient speech emotion recognition using modified feature extraction. Informatics in Medicine Unlocked, 20, 100424. Wang, K., Su, G., Liu, L., & Wang, S. (2020). Wavelet packet analysis for speaker-independent emotion recognition. Neurocomputing, 398, 257-264.
Monica, F., & Antonella, I. (2019). Correlation Analysis. Encyclopedia of Bioinformatics and Computational Biology.
Özseven, T. (2019). Konuşma Tabanlı Duygu Tanımada Ön İşleme ve Öznitelik Seçim Yöntemlerinin Etkisi. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 10(1), 99-112.
PARLAK, C., & Banu, D. İ. R. İ. (2014). FARKLI VERİ SETLERİ ARASINDA DUYGU TANIMA ÇALIŞMASI. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, 16(48), 21-29. Parlak, C., & Diri, B. (2013). İnsan Sesinden Duygu Çıkarma. Sinyal İşleme ve Uygulamaları Kurultayı.
Pan, Y., Shen, P., & Shen, L. (2012). Speech emotion recognition using support vector machine. International Journal of Smart Home, 6(2), 101-108.
POLAT, G., & ALTUN. H. (2008). SES ÖZNİTELİK VEKTÖRLERİNİN DUYGUSAL DURUM SINIFLANDIRILMASINDA KULLANIMI.
Pourebrahim, Y., Razzazi, F., & Sameti, H. (2021). Semi-supervised parallel shared encoders for speech emotion recognition. Digital Signal Processing, 118, 103205.
Yao, Z., Wang, Z., Liu, W., Liu, Y., & Pan, J. (2020). Speech emotion recognition using fusion of three multi-task learning-based classifiers: HSF-DNN, MS-CNN and LLD-RNN. Speech Communication, 120, 11-19.
Zhao, Z., Bao, Z., Zhang, Z., Cummins, N., Sun, S., Wang, H., & Schuller, B. W. (2021). Self-attention transfer networks for speech emotion recognition. Virtual Reality & Intelligent Hardware, 3(1), 43-54.
Umut Orhan, Makine Öğrenmesi, (21, Kasım, 2021). Erişim Adresi https://bmb.cu.edu.tr/uorhan/DersNotu/Ders11.pdf
Nagesh Singh Chauhan, Naive Bayes, 22, Kasım, 2021). Erişim Adresi (https://www.kdnuggets.com/2020/06/naive-bayes-algorithm-everything.html.
Robith Gandhi, Support Vector Machine- Introduction to Machine Learning Algorithms, (20, Kasım, 2021). Erişim Adresi https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47
Betül Akpınar, Adaptif Sıralı Minimal Optimizasyon ile Destek Vektör Makinesi, (20, Kasım, 2021). Erişim Adresi https://prezi.com/m7epydjvyf37/adaptif-sral-minimal-optimizasyon-ile-destek-vektor-makine/
Mehmet Fatih Akca, Karar Agaçları, (22, Kasım, 2021). Erişim Adresi https://medium.com/deep-learning-turkiye/karar-a%C4%9Fa%C3%A7lar%C4%B1-makine-%C3%B6%C4%9Frenmesi-serisi-3-a03f3ff00ba5
Statistics Solutions Team, What is Logistic Regresssion, 26, Kasım, 2021). Erişim Adresi https://www.statisticssolutions.com/free-resources/directory-of-statistical-analyses/what-is-logistic-regression/
Mehmet Fatih Akca, RNN Nedir? Nasıl Çalışır? (26, Kasım, 2021). Erişim Adresi https://medium.com/deep-learning-turkiye/rnn-nedir-nas%C4%B1l-%C3%A7al%C4%B1%C5%9F%C4%B1r-9e5d572689e1
Protopars Team, Derin öğrenme (Deep learning) nedir?, (25, Kasım, 2021). Erişim Adresi https://www.protopars.com/derin-ogrenme-deep-learning-nedir/
TechTarget Team, Convolutional neural network, (21, Kasım, 2021). Erişim Adresi https://searchenterpriseai.techtarget.com/definition/convolutional-neural-network
Özgür Doğan, CNN (Convolutional Neural Networks) Nedir?, (22, Kasım, 2021). Erişim Adresi https://teknoloji.org/cnn-convolutional-neural-networks-nedir/
Intellipaat Team, What is LSTM, (25, Kasım, 2021). Erişim Adresi https://intellipaat.com/blog/what-is-lstm/
Veri Bilimci Ekibi, Uzun/Kısa Süreli Bellek, (17, Kasım, 2021). Erişim Adresi https://veribilimcisi.com/2017/09/26/uzun-kisa-sureli-bellek-long-short-term-memory/
Ajitesh Kumar, Gaussian Micture Models: What are they and when to use? (27, Kasım, 2021). Erişim Adresi: https://vitalflux.com/gaussian-mixture-models-what-are-they-when-to-use/
Evren Aslan, Makine Öğrenmesi- KNN Algoritması Nedir, (17, Kasım, 2021). Erişim Adresi https://medium.com/@arslanev/makine-%C3%B6%C4%9Frenmesi-knn-k-nearest-neighbors-algoritmas%C4%B1-bdfb688d7c5f
Francesco Lassig, Temporal Convolutional Networks and Forecasting (11, Kasım, 2021). Erişim Adresi https://unit8.com/resources/temporal-convolutional-networks-and-forecasting/

Toplam 36 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Konular	Mühendislik
Bölüm	Makaleler
Yazarlar	Emel Çolakoğlu 0000-0003-1755-3130 Serhat Hızlısoy 0000-0001-8440-5539 Recep Sinan Arslan 0000-0002-3028-0416
Yayımlanma Tarihi	31 Aralık 2021
Yayımlandığı Sayı	Yıl 2021 Sayı: 32

Kaynak Göster

APA	Çolakoğlu, E., Hızlısoy, S., & Arslan, R. S. (2021). Konuşmadan Duygu Tanıma Üzerine Detaylı bir İnceleme: Özellikler ve Sınıflandırma Metotları. Avrupa Bilim Ve Teknoloji Dergisi(32), 471-483. https://doi.org/10.31590/ejosat.1039403

Cited By

Konuşma Duygu Tanıma Uygulamalarında Hiper Parametre Optimizasyonu ile Derin Öğrenme Metotlarının Geliştirilmesi

Karadeniz Fen Bilimleri Dergisi

https://doi.org/10.31466/kfbd.1508578

Speech-to-Gender Recognition Based on Machine Learning Algorithms

International Journal of Applied Mathematics Electronics and Computers

https://doi.org/10.18100/ijamec.1221455

Kapak Resmi İndir

Makale Dosyaları

Tam Metin