Research Article
BibTex RIS Cite

USE OF REGRESSION IN NOISY SPEECH RECOGNITION

Year 2014, Special Issue of XIV. International Symposium on Econometrics, Operations Research and Statistics, 495 - 502, 01.10.2014

Abstract

In this
study, we investigated the contribution of the multiple regression to robust
noisy speech recognition in improving the recognition rates. When the noisy
speech recognition process is carried out; first of all, an Affine
Transformation is performed in order to map the feature vectors of noisy speech
into those of clean speech. After transforming, the recognition step is
achieved using the Common Vector Approach (CVA). We used several multiple
linear as well as non-linear regression models to improve the recognition rates
by adding non-linear terms into the model during the affine transformation
stage. In the experimental study, the recognition rates of the noisy speech
signals with 0 dB, 5 dB, 10dB, and 20 dB Signal-to-Noise Ratio (SNR) values
have been obtained. Noisy speech which has 20, 10, 5, and 0 dB SNR is obtained using
MATLAB by adding white Gaussian noise on the clean speech taken from the Texas
Instruments (TI) Digit Database. Improvements are observed when non-linear
terms are introduced into the model.

References

  • Basbug, F., Swaminathan, K. & Nandkumar, S. (2003). Noise reduction and echo cancellation front-end for speech codecs. IEEE Transactions on Speech and Audio Processing, 11(1), 1-13.
  • Chien, J.-T. (2003). Linear regression based Bayesian predictive classification for speech recognition. IEEE Transactions on Speech and Audio Processing, 11(1), 70-79.
  • David, A. F. (2005). Statistical Models: Theory and Practice. Cambridge: Cambridge University Press.
  • Gulmezoglu, M. B., Dzhafarov, V., Keskin, M. & Barkana, A. (1999). A novel approach to isolated word recognition. IEEE Transactions on Speech and Audio Processing, 7(6), 620-628.
  • Gulmezoglu, M. B., Dzhafarov, V. & Barkana, A. (2001). The Common Vector Approach and its relation to Principal Component Analysis. IEEE Transactions on Speech and Audio Processing, 9(6), 655-662.
  • Karnjanadecha, M. & Zahorian, S. A. (2001). Signal modeling for high-performance robust isolated word recognition. IEEE Transactions on Speech and Audio Processing, 9(6), 647-654.
  • Lee, C., Hyun, D., Choi, E., Go, J. & Lee, C. (2003). Optimizing feature extraction for speech recognition. IEEE Transactions on Speech and Audio Processing, 11(1), 80-87.
  • Mammone, J. R., Zhang, X. & Ramachandran, R. P. (1996, September). Robust speaker recognition – A feature based approach. IEEE Signal Processing Magazine, 58-71.

GÜRÜLTÜLÜ SES TANIMADA REGRESYON KULLANIMI

Year 2014, Special Issue of XIV. International Symposium on Econometrics, Operations Research and Statistics, 495 - 502, 01.10.2014

Abstract

  • Bu çalışmada,
    gürültülü ses tanıma oranlarının iyileştirilmesinde çoklu regresyon analizinin
    katkısı araştırılmıştır. Gürültülü ortamda ses tanıma sürecinde, ilk önce,
    gürültülü sesin öznitelik vektörünü temiz sesin öznitelik vektörüne haritalayan
    bir ilgin (affine) dönüşümden faydalanılmaktadır. Bu dönüşümden sonra, tanıma
    aşaması Ortak Vektör Yaklaşımı (OVY) ile yürütülmektedir. Tanıma oranlarını
    iyileştirmek için, ilgin (affine) dönüşüm sırasında birçok doğrusal ve doğrusal
    olmayan regresyon modeli kurulmuş ve hem doğrusal hem de doğrusal olmayan
    terimler bu modele eklenmiştir. Deneysel çalışmalarda, 0 dB, 5 dB, 10dB ve 20
    dB Sinyal/Gürültü Oranı (SGO) değerlerindeki gürültülü ses sinyalleri için
    tanıma oranları elde edilmiştir. 20, 10, 5 ve 0 dB SGO gürültülü sesler, Texas Instruments (TI) Rakam veritabanından
    alınan temiz seslerin üzerine Beyaz Gauss gürültünün MATLAB ortamında eklenmesi
    ile elde edilmiştir. Doğrusal olmayan terimlerin modele eklenmesi sonucu tanıma
    oranlarında iyileşmeler gözlemlenmiştir.

References

  • Basbug, F., Swaminathan, K. & Nandkumar, S. (2003). Noise reduction and echo cancellation front-end for speech codecs. IEEE Transactions on Speech and Audio Processing, 11(1), 1-13.
  • Chien, J.-T. (2003). Linear regression based Bayesian predictive classification for speech recognition. IEEE Transactions on Speech and Audio Processing, 11(1), 70-79.
  • David, A. F. (2005). Statistical Models: Theory and Practice. Cambridge: Cambridge University Press.
  • Gulmezoglu, M. B., Dzhafarov, V., Keskin, M. & Barkana, A. (1999). A novel approach to isolated word recognition. IEEE Transactions on Speech and Audio Processing, 7(6), 620-628.
  • Gulmezoglu, M. B., Dzhafarov, V. & Barkana, A. (2001). The Common Vector Approach and its relation to Principal Component Analysis. IEEE Transactions on Speech and Audio Processing, 9(6), 655-662.
  • Karnjanadecha, M. & Zahorian, S. A. (2001). Signal modeling for high-performance robust isolated word recognition. IEEE Transactions on Speech and Audio Processing, 9(6), 647-654.
  • Lee, C., Hyun, D., Choi, E., Go, J. & Lee, C. (2003). Optimizing feature extraction for speech recognition. IEEE Transactions on Speech and Audio Processing, 11(1), 80-87.
  • Mammone, J. R., Zhang, X. & Ramachandran, R. P. (1996, September). Robust speaker recognition – A feature based approach. IEEE Signal Processing Magazine, 58-71.
There are 8 citations in total.

Cite

APA Ergin, S., & Arapoğlu, R. A. (2014). GÜRÜLTÜLÜ SES TANIMADA REGRESYON KULLANIMI. Dumlupınar Üniversitesi Sosyal Bilimler Dergisi495-502.
AMA Ergin S, Arapoğlu RA. GÜRÜLTÜLÜ SES TANIMADA REGRESYON KULLANIMI. Dumlupınar Üniversitesi Sosyal Bilimler Dergisi. Published online October 1, 2014:495-502.
Chicago Ergin, Semih, and Rifat Aykut Arapoğlu. “GÜRÜLTÜLÜ SES TANIMADA REGRESYON KULLANIMI”. Dumlupınar Üniversitesi Sosyal Bilimler Dergisi, October (October 2014), 495-502.
EndNote Ergin S, Arapoğlu RA (October 1, 2014) GÜRÜLTÜLÜ SES TANIMADA REGRESYON KULLANIMI. Dumlupınar Üniversitesi Sosyal Bilimler Dergisi 495–502.
IEEE S. Ergin and R. A. Arapoğlu, “GÜRÜLTÜLÜ SES TANIMADA REGRESYON KULLANIMI”, Dumlupınar Üniversitesi Sosyal Bilimler Dergisi, pp. 495–502, October 2014.
ISNAD Ergin, Semih - Arapoğlu, Rifat Aykut. “GÜRÜLTÜLÜ SES TANIMADA REGRESYON KULLANIMI”. Dumlupınar Üniversitesi Sosyal Bilimler Dergisi. October 2014. 495-502.
JAMA Ergin S, Arapoğlu RA. GÜRÜLTÜLÜ SES TANIMADA REGRESYON KULLANIMI. Dumlupınar Üniversitesi Sosyal Bilimler Dergisi. 2014;:495–502.
MLA Ergin, Semih and Rifat Aykut Arapoğlu. “GÜRÜLTÜLÜ SES TANIMADA REGRESYON KULLANIMI”. Dumlupınar Üniversitesi Sosyal Bilimler Dergisi, 2014, pp. 495-02.
Vancouver Ergin S, Arapoğlu RA. GÜRÜLTÜLÜ SES TANIMADA REGRESYON KULLANIMI. Dumlupınar Üniversitesi Sosyal Bilimler Dergisi. 2014:495-502.

Dergimiz EBSCOhost, ULAKBİM/Sosyal Bilimler Veri Tabanında, SOBİAD ve Türk Eğitim İndeksi'nde yer alan uluslararası hakemli bir dergidir.