Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme

Serap Kırbız

Araştırma Makalesi

Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme

Yıl 2025, Cilt: 15 Sayı: 1, 87 - 95, 25.01.2025

Serap Kırbız

Öz

Bu makalede, kaynak ayrıştırma algoritmalarından faydalanarak birden fazla kaynaktan oluşan ses kayıtlarında konuşma işaretlerini güçlendirmek için bir yöntem önerilmektir. Ortamdaki konuşma sesleri ve diğer sesler arasındaki doğru dengeyi bulmak önemli bir problem olup, dinleyici şikayetleri arasında dikkati çekmektedir. Dinleyiciler, diyaloglar ve çevresel sesler arasındaki ses dengesini, kendi kişisel tercihlerine göre ayarlamak istemektedirler. Bu makalede diyalog içeren ses kayıtlarından matris ve tensör ayrıştırma modelleri kullanarak diyalogların ayrıştırılması ve bunun daha sonra kayıtta bulunan diğer seslerle farklı oranlarda yeniden birleştirilmesiyle, kullanıcının tercihini dikkate alan bir kayıt dinlemesi için bir yöntem geliştirilmektedir. Önerilen yöntem, akan veri üzerinde de çalışabilmekte olup, televizyon programları gibi gerçek zamana uygulanabilmektedir.

Anahtar Kelimeler

kaynak ayrıştırma, diyalog geliştirme, derin öğrenme

Destekleyen Kurum

TÜBİTAK

Proje Numarası

TÜBİTAK EEEAG/215E076

Kaynakça

[1] D. D. Lee, ve H. S. Seung, “Algorithms for non-negative matrix factorization”, Advances in neural information processing systems, 2000.
[2] C. Févotte, E. Vincent, ve A. Ozerov. “Single-channel audio source separation with NMF: divergences, constraints and algorithms”, Audio Source Separation, Springer, 2018, 1-24.
[3] Ç. Hızlı, E. Karamatlı, A. T. Cemgil, ve S. Kırbız, “Değişimli Oto-Kodlayıcılar Kullanılarak Birleşik Kaynak Ayrıştırma ve Sınıflandırma-Joint Source Separation and Classification Using Variational Autoencoders”, In 28th IEEE Signal Processing and Communications Applications Conference (SIU), 2020.
[4] E. Karamatli, A. T. Cemgil, ve S. Kirbiz, “Audio Source Separation Using Variational Autoencoders and Weak Class Supervision”, IEEE Signal Processing Letters, 2019, 1349-1353.
[5] D. P. Kingma, ve M. Welling, “Auto-encoding Variational Bayes”. In Proc. ICLR, 2014.
[6] I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, ve A. Lerchner, “beta-vae: Learning basic visual concepts with a constrained variational framework”, In Proc. ICLR, 2017.
[7] D. Wang, ve J. Chen, “Supervised Speech Separation Based on Deep Learning: An Overview”, IEEE/ACM transactions on audio, speech, and language processing 26.10 (2018): 1702-1726.
[8] S. Kırbız, A. Ozerov, A. Liutkus, ve L. Girin, "Perceptual coding-based Informed Source Separation," 2014 22nd European Signal Processing Conference (EUSIPCO), Lisbon, Portugal, 2014, pp. 959-963.
[9] E. M. Grais, ve M. D. Plumbley, “Single channel audio source separation using convolutional denoising autoencoders”. 2017 IEEE global conference on signal and information processing (GlobalSIP) 2017.
[10] A. T. Cemgil, “Bayesian inference for nonnegative matrix factorisation models”, Computational intelligence and neuroscience, 2009(1), 785152
[11] A. Zadeh, Y. C. Lim, P. P. Liang, ve L. P. Morency, "Variational auto-decoder: A method for neural generative modeling from incomplete data." arXiv preprint arXiv:1903.00840, 2019.
[12] S. Sra, ve I. S. Dhillon, “Generalized nonnegative matrix approximations with bregman divergences”. Advances in neural information processing systems, 2006, pp. 283–290).
[13] E. Vincent, R. Gribonval, ve C. Fevotte, “Performance measurement in blind audio source separation”, EEE transactions on audio, speech, and language processing 14.4 (2006): 1462-1469.
[14] J. Le Roux, S. Wisdom, H. Erdogan, ve J. R. Hershey, “SDR–Half-Baked or Well Done?”, 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, (pp. 626–630).
[15] W. Hsu, Y. Zhang, ve J. Glass, “Learning Latent Representations for Speech Generation and Transformation”, Interspeech 2016; Sep 8-12; San Francisco, CA. 2016. p. 1770-1774.
[16] P. Warden, “Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition”. arXiv preprint arXiv:1804.03209, 2018.
[17] M. Cooke, J. Barker, S. Cunningham, ve X. Shao, “An audio-visual corpus for speech perception and automatic speech recognition”. The Journal of the Acoustical Society of America 120.5, 2006: 2421-2424.
[18] D. P. Kingma, ve J. Ba, “Adam: A method for stochastic optimization arXiv preprint arXiv:1412.6980, 2014.
[19] S. Venkataramani, E. Tzinis, ve P. Smaragdis, “End-to-end Non-Negative Autoencoders for Sound Source Separation”, ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020. p. 116-120.
[20] A. W. Rix, J. G. Beerends, M. P. Hollier, ve A. P. Hekstra, “Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs”. IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2, 2001, (pp. 749–752).

Toplam 20 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Konular	Elektrik Mühendisliği (Diğer)
Bölüm	Akademik ve/veya teknolojik bilimsel makale
Yazarlar	Serap Kırbız 0000-0001-7718-3683
Proje Numarası	TÜBİTAK EEEAG/215E076
Yayımlanma Tarihi	25 Ocak 2025
Gönderilme Tarihi	3 Kasım 2024
Kabul Tarihi	21 Aralık 2024
Yayımlandığı Sayı	Yıl 2025 Cilt: 15 Sayı: 1

Kaynak Göster

APA	Kırbız, S. (2025). Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme. EMO Bilimsel Dergi, 15(1), 87-95.
AMA	Kırbız S. Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme. EMO Bilimsel Dergi. Ocak 2025;15(1):87-95.
Chicago	Kırbız, Serap. “Değişimli Oto-Kodlayıcılar Kullanarak Diyalog Geliştirme”. EMO Bilimsel Dergi 15, sy. 1 (Ocak 2025): 87-95.
EndNote	Kırbız S (01 Ocak 2025) Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme. EMO Bilimsel Dergi 15 1 87–95.
IEEE	S. Kırbız, “Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme”, EMO Bilimsel Dergi, c. 15, sy. 1, ss. 87–95, 2025.
ISNAD	Kırbız, Serap. “Değişimli Oto-Kodlayıcılar Kullanarak Diyalog Geliştirme”. EMO Bilimsel Dergi 15/1 (Ocak 2025), 87-95.
JAMA	Kırbız S. Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme. EMO Bilimsel Dergi. 2025;15:87–95.
MLA	Kırbız, Serap. “Değişimli Oto-Kodlayıcılar Kullanarak Diyalog Geliştirme”. EMO Bilimsel Dergi, c. 15, sy. 1, 2025, ss. 87-95.
Vancouver	Kırbız S. Değişimli Oto-Kodlayıcılar kullanarak Diyalog Geliştirme. EMO Bilimsel Dergi. 2025;15(1):87-95.

Kapak Resmi İndir

Makale Dosyaları

Tam Metin

EMO BİLİMSEL DERGİ
Elektrik, Elektronik, Bilgisayar, Biyomedikal, Kontrol Mühendisliği Bilimsel Hakemli Dergisi
TMMOB ELEKTRİK MÜHENDİSLERİ ODASI
IHLAMUR SOKAK NO:10 KIZILAY/ANKARA
TEL: +90 (312) 425 32 72 (PBX) - FAKS: +90 (312) 417 38 18
bilimseldergi@emo.org.tr