Bu çalışmada Kısa-zaman
Ortalama ve Değişinti Normalizasyonu (Short-time Mean and Variance
Normalization - STMVN), Kısa-zaman Sepstral Ortalama ve Ölçeklendirme
Normalizasyonu (Short-time Cepstral Mean and Scale Normalization - STMSN),
Asgari – Azami (Min-Max) Normalizasyonu, Z-Skor (Z-Score) Normalizasyonu ve
Standart Sapma (Standard Deviation) Normalizasyon tekniklerinin, konuşmacı
cinsiyetinin tespitinde sınıflandırma başarımına etkisi araştırılmıştır.
Çalışmada veri seti olarak TIMIT veri setindeki 192 erkek ve 192 kadın
konuşmacıya ait ses kayıtları kullanılmıştır. Ses kayıtlarından Mel Frekansı
Sepstral Katsayısı (Mel Frequency Cepstral Coefficient – MFCC) tekniği ile
öznitelik çıkarılmış ve çıkarılan özniteliklerin boyutu Temel Bileşen
Analizi (Principal component analysis – PCA) ile indirgenerek, değişik
teknikler ile normalize edilmiştir. Sınıflandırıcı olarak Destek Vektör Makinesi (Support Vector Machine – SVM) kullanılmıştır.
Çalışma sonucunda konuşmacı cinsiyeti tahmininde en yüksek başarımın %98.18 ile
Standart Sapma Normalizasyon Tekniği ile normalize edilmiş özniteliklerden
elde edildiği gözlemlenmiş olup diğer tekniklerin başarımı düşürdüğü
gözlemlenmiştir.
Asgari – Azami Normalizasyonu Z-Skor Normalizasyonu Standart Sapma Normalizasyonu Kısa-zaman Ortalama ve Değişinti Normalizasyonu Kısa-zaman Sepstral Ortalama ve Ölçeklendirme Normalizasyonu
In this study, the effect of Short-time Mean and Variance Normalization
(STMVN), Short-time Cepstral Mean and
Scale Normalization (STMSN), Min-Max Normalization, Z-Score Normalization and
Standard Deviation Normalization techniques on the classification
performance was investigated in determining speakers’ gender. In the study,
voice records which belongs to 192 male and 192 female speakers from TIMIT data
set were used as data set. Features were extracted from Mel Frequency Cepstral
Coefficients (MFCC) technique by using voice records and extracted
features’ dimension was reduced to Principal Component Analysis (PCA), then
normalized with different techniques. Support Vector Machine (SVM) was
used as classifier. As a result of study, it was observed that, the highest accuracy
in speakers’ gender estimation is obtained as %98.18 from features which were
normalized with Standard Deviation Normalization technique and other
normalization techniques were reduced accuracy.
Max-Min Normalization Z-Score Normalization Standard Deviation Normalization Short-time Mean and Variance Normalization Short-time Cepstral Mean and Scale Normalization
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 30 Eylül 2018 |
Kabul Tarihi | 12 Nisan 2018 |
Yayımlandığı Sayı | Yıl 2018 |