BibTex RIS Cite

Alman Dili Üzerinde Konuşmacı Cinsiyetinin Otomatik Olarak Belirlenmesi

Year 2016, Volume: 4 Issue: 2, 0 - 0, 31.05.2016
https://doi.org/10.21541/apjes.49291

Abstract

Kişi tanıma sistemleri biyometrik verilerin güvenli bir şekilde iletimini, tasarımını, sınıflandırılmasını gerekli kılmaktadır. Ayrıca konuşmacıların cinsiyeti belirlenerek biyometrik ses işlemlerinde daha başarılı sonuçlar elde edilebilir. Bu çalışmada Almanca ses biçim ve özelliklerine bakılarak konuşmacının cinsiyetinin otomatik olarak tanınması için bir sistem tasarlanması amaçlanmıştır. 50 erkek ve 50 kadından Almanca farklı uzunlukta kelime ve cümle olarak  yaklaşık 2658 ses örneği alınmıştır. Bu ses örnekleri tek kelime olduğu gibi birden fazla kelime de içermektedir. Ses örneklerinin öznitelikleri MFCC (Mel Frequency Cepstral Coefficients) kullanılarak elde edilmiştir. Elde edilen ses örneklerinin öznitelik vektörleri Saklı Markov Modelleri(Hidden Markov Models-HMM) , Dinamik Zaman Bükmesi (Dynamic Time Warping-DTW) ve Gauss Mixture Models (Gauss Karışım Modeli-GMM)  yöntemleri ile eğitilmiştir. Test aşamasında ise eğitilen ses örneklerine bakılarak verilen ses örneğinin cinsiyeti belirlenmeye çalışılmıştır. Ayrıca çalışmada kullanılan tüm sınıflandırma algoritmalarının sonuçları ve performansları karşılaştırılmalı olarak sunulmuştur.

 

Anahtar Kelimeler: Konuşmacı Cinsiyeti Tanıma Sistemi; Dinamik Zaman Bükmesi; Saklı Markov Modeli.

References

  • Q.Jie-Fu, F. Gang, F. Zeng and R. Shannon etc., “Importance of tonal envelope cues in Chinese speech recognition”, The Journal of the Acoustical Societct of America, vol.104, no.1, pp.505-510, 1998.
  • K. Tokuda , H. Zen and A. Black, “An HMM-Based Speech Synthesis System Applied to English”, Proc.of 2002 IEEE SSW, pp.227-230, 2012.
  • D.Reynold , W. Andrews and J.Campbell etc., “The SuperSID Project: Exploiting High-Level Information for High-Accuracy Speaker Recognition”, In.Proc. ICASSP, Hong Kong, pp.784-787, 2003.
  • L.Muda and M.Began, (2010). “Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques”, Journal Computing, vol.2, issue 3,pp.138-143, ISBN 2151-9617, 2010.
  • E. Trentin and M. Gori, “A survey of hybrid ANN/HMM models for automatic speech recognition”, Elsevier Neurocomputing 37, pp.91-126, 2001.
  • S.Oh and C.Suen, “A class-modular feed forward neural network for handwriting recognition”, Pattern Recognition, vol.35, issue 1, pp.229-244, 2002.
  • L.Theodore , N.Ralph and H.Daniel, ” The acoustic bases for gender identification from children’s voices”, J. Acoust. Soc. Am. 109 (6), pp.2988-2998, 2001.
  • D.Reynolds , T.Quatieri and R.Dunn, “Speaker Verification using Adapted Gaussian Mixture Models”, Digital Signal Processing 10, pp.19-41, 2000.
  • W.Gevaert , G.Tsenov and V.Mladenov, “Neural networks used for speech recognition”, Journal of Automatic Control, vol.20, pp.1-7, 2010.
  • L. Muda, M. Begam and I.Elamvazuthi, “ Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques”, Jornal of Computing, vol.2, issue 3, pp.138-143, ISSN 2151-9617, 2010.
  • E. Parris, and M.Carey, “Language Independent Gender Identification”, Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEE International Conference on, vol.2, pp.685-688, 1996.
  • D.A. Reynolds and R.C. Rose, “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models”, IEEE Trans. Speech Audio Proc., 3, (1), pp. 72–83, 1995.
Year 2016, Volume: 4 Issue: 2, 0 - 0, 31.05.2016
https://doi.org/10.21541/apjes.49291

Abstract

References

  • Q.Jie-Fu, F. Gang, F. Zeng and R. Shannon etc., “Importance of tonal envelope cues in Chinese speech recognition”, The Journal of the Acoustical Societct of America, vol.104, no.1, pp.505-510, 1998.
  • K. Tokuda , H. Zen and A. Black, “An HMM-Based Speech Synthesis System Applied to English”, Proc.of 2002 IEEE SSW, pp.227-230, 2012.
  • D.Reynold , W. Andrews and J.Campbell etc., “The SuperSID Project: Exploiting High-Level Information for High-Accuracy Speaker Recognition”, In.Proc. ICASSP, Hong Kong, pp.784-787, 2003.
  • L.Muda and M.Began, (2010). “Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques”, Journal Computing, vol.2, issue 3,pp.138-143, ISBN 2151-9617, 2010.
  • E. Trentin and M. Gori, “A survey of hybrid ANN/HMM models for automatic speech recognition”, Elsevier Neurocomputing 37, pp.91-126, 2001.
  • S.Oh and C.Suen, “A class-modular feed forward neural network for handwriting recognition”, Pattern Recognition, vol.35, issue 1, pp.229-244, 2002.
  • L.Theodore , N.Ralph and H.Daniel, ” The acoustic bases for gender identification from children’s voices”, J. Acoust. Soc. Am. 109 (6), pp.2988-2998, 2001.
  • D.Reynolds , T.Quatieri and R.Dunn, “Speaker Verification using Adapted Gaussian Mixture Models”, Digital Signal Processing 10, pp.19-41, 2000.
  • W.Gevaert , G.Tsenov and V.Mladenov, “Neural networks used for speech recognition”, Journal of Automatic Control, vol.20, pp.1-7, 2010.
  • L. Muda, M. Begam and I.Elamvazuthi, “ Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques”, Jornal of Computing, vol.2, issue 3, pp.138-143, ISSN 2151-9617, 2010.
  • E. Parris, and M.Carey, “Language Independent Gender Identification”, Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEE International Conference on, vol.2, pp.685-688, 1996.
  • D.A. Reynolds and R.C. Rose, “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models”, IEEE Trans. Speech Audio Proc., 3, (1), pp. 72–83, 1995.
There are 12 citations in total.

Details

Journal Section Articles
Authors

Çiğdem Bakır

Publication Date May 31, 2016
Submission Date April 5, 2016
Published in Issue Year 2016 Volume: 4 Issue: 2

Cite

IEEE Ç. Bakır, “Alman Dili Üzerinde Konuşmacı Cinsiyetinin Otomatik Olarak Belirlenmesi”, APJES, vol. 4, no. 2, 2016, doi: 10.21541/apjes.49291.