Ağızlar, standart dilden belli oranda ayrılan yerel konuşma biçimleridir. Ağız tanıma, konuşma tanıma alanında çalışılan popüler konular arasındadır. Özellikle, büyük ölçekli konuşma tanıma sistemlerinin başarımlarını arttırmak için konuşmanın ağzının öncelikli olarak belirlenmesi istenmektedir. Konuşmanın fonetik farklılıkları, fiziksel düzeyde akustik özellikleri incelenerek tespit edilebilmektedir. Log mel-spektrogram gibi öznitelikler bu amaçla kullanılmaktadır. Bununla birlikte, fonotaktik terimi, bir dilde/ağızda, fonemlerin bir araya gelme kurallarına karşılık gelmektedir. Fonem dizilimleri ve bu dizilimin sıklığı ağızdan ağza değişiklik göstermektedir. Fonem dizilimleri fonem tanıyıcılar yardımıyla elde edilmektedir. Son yıllarda popüler olan diğer bir konu derin öğrenme sinir ağlarıdır. Derin öğrenme sinir ağlarının özel bir çeşidi olan Evrişimli Sinir Ağları (CNN) özellikle görüntü ve konuşma tanımada sıklıkla kullanılmaktadır. Uzun Kısa-Dönem Bellekli Sinir Ağları (LSTM), dil modellemede n-gram modellerden daha başarılı sonuçlar üreten bir derin öğrenme sinir ağı modelidir. Bu çalışmada Türkçe ağızların akustik ve fonotaktik özellikleri bakımından CNN ve LSTM-türü sinir ağlarıyla sınıflandırılması ele alınmıştır. Ayrıca LSTM sinir ağları fonotaktik yaklaşımda dil modelleme için kullanılmıştır. Deneysel çalışmada önerilen yaklaşımlar, tarafımızca toplanan Türkçe Ağızlar Veri Kümesi üzerinde kullanılarak sınanmış ve yorumlanmıştır. Çalışma sonucunda, kullanılan yaklaşımların Türkçe ağız tanıma için %85,1 doğruluk oranı verdiği gözlenmiştir.
Türkçe ağız tanıma evrişimli sinir ağları akustik ve fonotaktik log mel-spektrogram yinelemeli sinir ağları dil modelleri
Dialects are local forms of speech separated by a certain rate from a standard language. Dialect recognition is one of the popular topics studied in speech recognition. In particular, the spoken dialect is asked to be identified first in order to improve the performance of large scale speech recognition systems. The phonetic differences of speech can be determined by examining the acoustic properties at the physical level. Features such as Log mel-spectrograms are used for this purpose. In addition, the phonotactic term corresponds to the arrangement rules of phonemes in a language/dialect. Phoneme sequences and the frequency of this sequence vary from dialect to dialect. Phoneme sequences are obtained by phoneme recognizers. Another topic that has become popular in recent years is deep learning neural networks. Convolutional Neural Networks (CNN), which is a special kind of deep learning neural networks, are often used in image and speech recognition. Long Short-Term Memory Neural Networks (LSTM) is a deep learning neural network model that produces more successful results than n-gram models in language modeling. In this study, the classification of Turkish dialects with CNN and LSTM type neural networks in terms of acoustic and phonotactic features were discussed. Also, LSTM neural networks are used for language modeling in phonotactic approach. In the experimental study, the proposed approaches were tested and interpreted on the Turkish Dialects Dataset that we collected. As a result of the study, it has been observed that the approaches used reaches 85.1% accuracy rate for Turkish dialect recognition.
Turkish dialect recognition convolutional neural networks acoustics and phonotactics log mel-spectrogram recurrent neural network language models
Primary Language | English |
---|---|
Subjects | Computer Software, Engineering |
Journal Section | Articles |
Authors | |
Publication Date | July 31, 2020 |
Submission Date | December 31, 2019 |
Published in Issue | Year 2020 Volume: 13 Issue: 3 |