Konuşma sentezleme (TTS: Text-to-Speech) sistemleri insan-bilgisayar etkileşiminin önemli bir parçasıdır. TTS işleminde bir dizi metne karşılık gelen bir dizi spektrogram tahmin edilmektedir. Elde edilen spektrogram dizisi insanların duyabileceği ses dalga formuna dönüştürülmektedir. TTS sistemlerinin başarısı, geliştirme kaynaklarının yetersizliği nedeni ile farklı diller için aynı düzeyde değildir. Bir TTS sisteminin verimli şekilde geliştirilebilmesi için ulaşılabilir, büyük boyutlu bir konuşma veri kümesine ihtiyaç duyulmaktadır. Türkçe gibi kaynak yetersizliği olan diller için konuşma veri kümelerinin eksikliği, TTS sistemleri geliştirmenin önündeki en büyük engellerden biridir. Büyük boyutlu bir veri kümesi hazırlama oldukça zaman alan, zorlu ve maliyetli bir görevdir. Bu çalışmada, Türkçe TTS sistemlerinin geliştirilmesinde kullanılabilecek bir veri kümesi hazırlanmıştır. Daha önceden hazırlanan metin verisi, bir erkek konuşmacı tarafından İstanbul Türkçesi kullanılarak duygudan bağımsız olarak seslendirilmiştir. Metin verisi 109.826 kelime içermektedir. Seslendirilen konuşma verisi yaklaşık 12 saat 38 dakika 59 saniye uzunluğundadır ve 22.050 Hz. örnekleme frekansında kaydedilmiştir. Türkçe için hazırlanan bu veri kümesi daha önce İngilizce için hazırlanmış ve başarılı sonuçlar elde edilmiş “The LJ Speech Dataset” isimli veri kümesi ile karşılaştırılmış ve gelecekteki çalışmalar için öneriler sunulmuştur. Bu veri kümesi akademik düzeyde Türkçe TTS çalışmalarını teşvik etmek için hazırlanmıştır. Hazırlanan Türkçe veri kümesinin performans durumunu gözlemlemek için GlowTTS modeli bu veri kümesi kullanılarak eğitilmiştir. Eğitilen GlowTTS modeli ile bir Türkçe TTS sistemi geliştirilmiştir. Geliştirilen Türkçe TTS sistemi kullanılarak sentezlenen konuşmalar ile doğal konuşmaların karşılaştırılması sonucu 2,12’lik bir MOS-LQO değeri elde edilmiştir. Elde edilen ilk sonuçlar hazırlanan veri kümesinin Türkçe TTS sistemi geliştirme çalışmalarına etkin bir katkı sağladığını göstermektedir.
Konuşma sentezleme Metinden konuşmaya dönüştürme sistemleri Türkçe konuşma sentezleme Derin öğrenme
TUBİTAK
121E479
Speech synthesis systems are an important part of human-computer interaction. With speech synthesis, a speech waveform corresponding to a spoken text is produced. The resulting waveform is converted into audio data that people can hear. The success of speech synthesis systems is not at the same level for different languages due to a lack of development resources. To train a speech synthesis system efficiently, a large, accessible corpus is needed. The lack of such corpus for low-resource languages such as Turkish is the biggest obstacle to developing Turkish speech synthesis systems. Preparing a large corpus is a time-consuming, challenging, and costly task. In this study, the process of creating an accessible corpus that will be used in the development of Turkish speech synthesis systems, increasing the success of naturalness and intelligibility, and the difficulties encountered are explained. The previously compiled text data for the corpus was voiced by a male speaker using Istanbul Turkish, regardless of emotion. The text data contains 109826 words. The spoken speech data is approximately 12 hours 38 minutes 59 seconds long and is at 22050 Hz. recorded at the sampling rate. This corpus prepared for Turkish was compared with the corpus named “The LJ Speech Dataset” which was previously prepared for English and successful results were obtained, and suggestions for future studies were presented. This corpus was developed to encourage Turkish speech synthesis studies at the academic level. In this way, we hope that a major deficiency in the development of Turkish speech synthesis systems will be eliminated.
121E479
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Project Number | 121E479 |
Publication Date | July 31, 2023 |
Submission Date | August 8, 2022 |
Published in Issue | Year 2023 |