Araştırma Makalesi
BibTex RIS Kaynak Göster

Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme

Yıl 2025, Cilt: 15 Sayı: 1, 87 - 95, 25.01.2025

Öz

Bu makalede, kaynak ayrıştırma algoritmalarından faydalanarak birden fazla kaynaktan oluşan ses kayıtlarında konuşma işaretlerini güçlendirmek için bir yöntem önerilmektir. Ortamdaki konuşma sesleri ve diğer sesler arasındaki doğru dengeyi bulmak önemli bir problem olup, dinleyici şikayetleri arasında dikkati çekmektedir. Dinleyiciler, diyaloglar ve çevresel sesler arasındaki ses dengesini, kendi kişisel tercihlerine göre ayarlamak istemektedirler. Bu makalede diyalog içeren ses kayıtlarından matris ve tensör ayrıştırma modelleri kullanarak diyalogların ayrıştırılması ve bunun daha sonra kayıtta bulunan diğer seslerle farklı oranlarda yeniden birleştirilmesiyle, kullanıcının tercihini dikkate alan bir kayıt dinlemesi için bir yöntem geliştirilmektedir. Önerilen yöntem, akan veri üzerinde de çalışabilmekte olup, televizyon programları gibi gerçek zamana uygulanabilmektedir.

Destekleyen Kurum

TÜBİTAK

Proje Numarası

TÜBİTAK EEEAG/215E076

Kaynakça

  • [1] D. D. Lee, ve H. S. Seung, “Algorithms for non-negative matrix factorization”, Advances in neural information processing systems, 2000.
  • [2] C. Févotte, E. Vincent, ve A. Ozerov. “Single-channel audio source separation with NMF: divergences, constraints and algorithms”, Audio Source Separation, Springer, 2018, 1-24.
  • [3] Ç. Hızlı, E. Karamatlı, A. T. Cemgil, ve S. Kırbız, “Değişimli Oto-Kodlayıcılar Kullanılarak Birleşik Kaynak Ayrıştırma ve Sınıflandırma-Joint Source Separation and Classification Using Variational Autoencoders”, In 28th IEEE Signal Processing and Communications Applications Conference (SIU), 2020.
  • [4] E. Karamatli, A. T. Cemgil, ve S. Kirbiz, “Audio Source Separation Using Variational Autoencoders and Weak Class Supervision”, IEEE Signal Processing Letters, 2019, 1349-1353.
  • [5] D. P. Kingma, ve M. Welling, “Auto-encoding Variational Bayes”. In Proc. ICLR, 2014.
  • [6] I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, ve A. Lerchner, “beta-vae: Learning basic visual concepts with a constrained variational framework”, In Proc. ICLR, 2017.
  • [7] D. Wang, ve J. Chen, “Supervised Speech Separation Based on Deep Learning: An Overview”, IEEE/ACM transactions on audio, speech, and language processing 26.10 (2018): 1702-1726.
  • [8] S. Kırbız, A. Ozerov, A. Liutkus, ve L. Girin, "Perceptual coding-based Informed Source Separation," 2014 22nd European Signal Processing Conference (EUSIPCO), Lisbon, Portugal, 2014, pp. 959-963.
  • [9] E. M. Grais, ve M. D. Plumbley, “Single channel audio source separation using convolutional denoising autoencoders”. 2017 IEEE global conference on signal and information processing (GlobalSIP) 2017.
  • [10] A. T. Cemgil, “Bayesian inference for nonnegative matrix factorisation models”, Computational intelligence and neuroscience, 2009(1), 785152
  • [11] A. Zadeh, Y. C. Lim, P. P. Liang, ve L. P. Morency, "Variational auto-decoder: A method for neural generative modeling from incomplete data." arXiv preprint arXiv:1903.00840, 2019.
  • [12] S. Sra, ve I. S. Dhillon, “Generalized nonnegative matrix approximations with bregman divergences”. Advances in neural information processing systems, 2006, pp. 283–290).
  • [13] E. Vincent, R. Gribonval, ve C. Fevotte, “Performance measurement in blind audio source separation”, EEE transactions on audio, speech, and language processing 14.4 (2006): 1462-1469.
  • [14] J. Le Roux, S. Wisdom, H. Erdogan, ve J. R. Hershey, “SDR–Half-Baked or Well Done?”, 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, (pp. 626–630).
  • [15] W. Hsu, Y. Zhang, ve J. Glass, “Learning Latent Representations for Speech Generation and Transformation”, Interspeech 2016; Sep 8-12; San Francisco, CA. 2016. p. 1770-1774.
  • [16] P. Warden, “Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition”. arXiv preprint arXiv:1804.03209, 2018.
  • [17] M. Cooke, J. Barker, S. Cunningham, ve X. Shao, “An audio-visual corpus for speech perception and automatic speech recognition”. The Journal of the Acoustical Society of America 120.5, 2006: 2421-2424.
  • [18] D. P. Kingma, ve J. Ba, “Adam: A method for stochastic optimization arXiv preprint arXiv:1412.6980, 2014.
  • [19] S. Venkataramani, E. Tzinis, ve P. Smaragdis, “End-to-end Non-Negative Autoencoders for Sound Source Separation”, ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020. p. 116-120.
  • [20] A. W. Rix, J. G. Beerends, M. P. Hollier, ve A. P. Hekstra, “Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs”. IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2, 2001, (pp. 749–752).
Toplam 20 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Elektrik Mühendisliği (Diğer)
Bölüm Akademik ve/veya teknolojik bilimsel makale
Yazarlar

Serap Kırbız 0000-0001-7718-3683

Proje Numarası TÜBİTAK EEEAG/215E076
Yayımlanma Tarihi 25 Ocak 2025
Gönderilme Tarihi 3 Kasım 2024
Kabul Tarihi 21 Aralık 2024
Yayımlandığı Sayı Yıl 2025 Cilt: 15 Sayı: 1

Kaynak Göster

APA Kırbız, S. (2025). Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme. EMO Bilimsel Dergi, 15(1), 87-95.
AMA Kırbız S. Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme. EMO Bilimsel Dergi. Ocak 2025;15(1):87-95.
Chicago Kırbız, Serap. “Değişimli Oto-Kodlayıcılar Kullanarak Diyalog Geliştirme”. EMO Bilimsel Dergi 15, sy. 1 (Ocak 2025): 87-95.
EndNote Kırbız S (01 Ocak 2025) Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme. EMO Bilimsel Dergi 15 1 87–95.
IEEE S. Kırbız, “Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme”, EMO Bilimsel Dergi, c. 15, sy. 1, ss. 87–95, 2025.
ISNAD Kırbız, Serap. “Değişimli Oto-Kodlayıcılar Kullanarak Diyalog Geliştirme”. EMO Bilimsel Dergi 15/1 (Ocak 2025), 87-95.
JAMA Kırbız S. Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme. EMO Bilimsel Dergi. 2025;15:87–95.
MLA Kırbız, Serap. “Değişimli Oto-Kodlayıcılar Kullanarak Diyalog Geliştirme”. EMO Bilimsel Dergi, c. 15, sy. 1, 2025, ss. 87-95.
Vancouver Kırbız S. Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme. EMO Bilimsel Dergi. 2025;15(1):87-95.

EMO BİLİMSEL DERGİ
Elektrik, Elektronik, Bilgisayar, Biyomedikal, Kontrol Mühendisliği Bilimsel Hakemli Dergisi
TMMOB ELEKTRİK MÜHENDİSLERİ ODASI 
IHLAMUR SOKAK NO:10 KIZILAY/ANKARA
TEL: +90 (312) 425 32 72 (PBX) - FAKS: +90 (312) 417 38 18
bilimseldergi@emo.org.tr