SPEAKER INDEPENDENT ISOLATED DIGIT RECOGNITION

thumbnail.default.placeholder
Date
2022-01-20
Authors
Hamid, Mohammed Saeed Hamid
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
In several speech signal processing applications, VAD presents an important character for splitting an audio stream into time intervals that include speech activity and time intervals where speech is absent. In this research, we presented new approach dealing with isolated word recognition. In the first stage, three functions applied for voice activity detection (VAD) problem hamming window, Bohman function, and Bartlett-Hann function. The both Bohman function and Bartlett-Hann function are not applied in previous studies for VAD problem. On the other hand, pitch, MFCCs, and energy applied as feature extraction techniques and combined with SOFTMAX which these two methods are new approaches. The Pitch based SOFTMAX presented remarkable results which extracted features by pitch wired to SOFTMAX and classified to seven words and presented 85% accuracy. Furthermore, energy also applied as feature extraction and the output of this function wired to the SOFTMAX. This framework easily can applied to the various isolated word recognition which only the user modified the input data easily. The main contribution in this study, combine SOFTMAX with several feature extraction techniques. The SOFTMAX is trend probability function which analysis input features to the labels between (0,1) and used in several deep learning techniques as last layer function for classification or regression issues. The obtained results compared with several studies presented in this field by applying several machine learning and deep learning techniques combined with audio signal processing techniques that’s applied for feature extraction.
Description
HOPARLÖR BAĞIMSIZ İZOLASYONLU RAKAM TANIMA
ÖZ: Çeşitli konuşma sinyali işleme uygulamalarında VAD, bir ses akışını konuşma etkinliği ve konuşmanın olmadığı zaman aralıklarını içeren zaman aralıklarına bölmek için önemli bir karakter sunar. Bu araştırmada, izole kelime tanıma ile ilgili yeni bir yaklaşım sunduk. İlk aşamada, ses etkinliği algılama (VAD) problem kırma penceresi, Bohman işlevi ve Bartlett Hann işlevi için üç işlev uygulanmıştır. Hem Bohman fonksiyonu hem de Bartlett Hann fonksiyonu VAD problemi için önceki çalışmalarda uygulanmamıştır. Öte yandan, perde, MFCC'ler ve enerji, özellik çıkarma teknikleri olarak uygulanır ve bu iki yöntemin yeni yaklaşımlar olduğu SOFTMAX ile birleştirilir. Pitch tabanlı SOFTMAX, SOFTMAX'a bağlanan ve yedi kelimeye göre sınıflandırılan ve% 85 doğrulukla özelliklerle çıkarılan olağanüstü sonuçlar sundu. Ayrıca enerji, özellik çıkarma ve SOFTMAX'a bağlanan bu fonksiyonun çıktısı olarak da uygulanır. Bu çerçeve, yalnızca kullanıcının giriş verilerini kolayca değiştirdiği çeşitli yalıtılmış kelime tanıma işlemlerine kolayca uygulanabilir. Bu çalışmadaki ana katkı, SOFTMAX'ı çeşitli özellik çıkarma teknikleriyle birleştirmiştir. SOFTMAX, (0,1) arasındaki etiketlere girdi özelliklerini analiz eden ve sınıflandırma veya regresyon sorunları için son katman fonksiyonu olarak çeşitli derin öğrenme tekniklerinde kullanılan trend olasılık fonksiyonudur. Elde edilen sonuçlar, özellik çıkarma için uygulanan sesli sinyal işleme teknikleri ile birleştirilmiş çeşitli makine öğrenme ve derin öğrenme teknikleri uygulanarak bu alanda sunulan çeşitli çalışmalarla karşılaştırılmıştır.
Keywords
electrical & electronics engineering
Citation