Pengenalan Suara Metode Mel Frequency Stral Coefficient Dan Learning Vector Quantization

Oleh : Muhammad Mulyawan

Speaker verification adalah proses verifikasi seorang pembicara, dimana sebelumnya telah diketahui identitas pembicara tersebut berdasarkan data yang telah di inputkan. Untuk dapat melakukan speaker verification, data suara akan melalui proses ekstraksi ciri suara untuk mendapatkan informasi yang terkandung di dalam data suara. Pada penelitian sebelumnya, metode Mel Frequency Cepstral Coefficients (MFCC) mempunyai tingkat keakuratan tertinggi dengan tingkat pengenalan 85,3% dan waktu ekstraksi ciri tercepat dibandingkan dengan metode ekstraksi ciri yang lainnya, sehingga metode MFCC adalah metode yang baik untuk ekstraksi fitur dalam pengenalan suara. Sebagai klasifikator digunakan jaringan syaraf tiruan Learning Vector Quantization (LVQ). LVQ adalah suatu metode untuk melakukan pembelajaran atau pelatihan pada lapisan kompetitif yang terawasi.

Pengenalan Suara Metode Mel Frequency Stral Coefficient Dan Learning Vector Quantization

Gambar 1.1 Tampilan Aplikasi Indentifikasi Suara

MFCC (Mel Frequency Cepstral Coefficients) merupakan salah satu metode yang banyak digunakan dalam bidang speech technology, baik speaker recognition maupun speech recognition. Metode ini digunakan untuk melakukan feature extraction, sebuah proses yang mengkonversikan sinyal suara menjadi beberapa parameter. Beberapa keunggulan dari metode ini adalah:

  • Mampu untuk menangkap karakteristik suara yang sangat penting bagi pengenalan suara, atau dengan kata lain dapat menangkap informasi-informasi penting yang terkandung dalam signal suara.
  • Menghasilkan data seminimal mungkin, tanpa menghilangkan informasiinformasi penting yang dikandungnya.
  • Mereplikasi organ pendengaran manusia dalam melakukan persepsi terhadap signal

 

Sebelum data suara diproses, terlebih dahulu data suara diekstraksi menggunakan metode MFCC. Hasil dari ekstraksi fitur menggunakan metode MFCC digunakan untuk proses pencocokan, dimana proses pencocokan ini akan membandingkan hasil ekstraksi fitur dari data uji dengan hasil ekstraksi fitur dari data latih yang terdapat pada database. Data hasil ekstraksi ciri diklasifikasi menggunakan LVQ. LVQ melakukan pembelajaran terhadap vektor dari hasil filter MFCC. Proses pencocokan suara dapat dilakukan dengan pengukuran jarak terdekat menggunakan euclidean distance untuk mengetahui seberapa besar kemiripan suara dari data uji dengan data pattern yang ada di basis pengetahuan di database. Untuk pengujian akurasi digunakan 150 data latih dan 50 data uji yang berasal dari 4 orang narasumber. Hasil pengujian akurasi menunjukkan bahwa penerapan metode MFCC dan LVQ dapat diterapkan untuk pengenalan suara. Hasil pengujian mendapatkan tingkat persentase rata-rata akurasi sebesar 88.89% dengan menggunakan frame size sebesar 512 dan nilai parameter pada pembelajaran LVQ menggunakan learning rate(=0,05), penurunan learning rate(dec =0,1) dan maksimum epoh=1000.