Файл:SILENCE IS GOLDEN - MODELING NON-SPEECH EVENTS IN WFST-BASED DYNAMIC NETWORK DECODERS.pdf

Материал из Материалы по машинному обучению
Перейти к: навигация, поиск
SILENCE_IS_GOLDEN_-_MODELING_NON-SPEECH_EVENTS_IN_WFST-BASED_DYNAMIC_NETWORK_DECODERS.pdf(0 × 0 пикселей, размер файла: 221 КБ, MIME-тип: application/pdf)

David Rybach, Ralf Schl¨uter, Hermann Ney Human Language Technology and Pattern Recognition, Computer Science Department, RWTH Aachen University, 52056 Aachen, Germany {rybach,schlueter,ney}@cs.rwth-aachen.de

ABSTRACT

Models for silence are a fundamental part of continuous speech recognition systems. Depending on application requirements, audio data segmentation, and availability of detailed training data annotations, it may be necessary or beneficial to differentiate between other non-speech events, for example breath and background noise. The integration of multiplenon-speech models in aWFST-based dynamic network decoder is not straight forward, because these models do not perfectly fit in the transducer framework. This paper describes several options for the transducer construction with multiple non-speech models, shows their considerable different characteristics in memory and runtime efficiency, and analyzes the impact on the recognition performance.

Index Terms — LVCSR, WFST

История файла

Нажмите на дату/время, чтобы просмотреть, как тогда выглядел файл.

Дата/времяРазмерыУчастникПримечание
текущий17:25, 22 декабря 20160 × 0 (221 КБ)Slikos (обсуждение | вклад)
  • Вы не можете перезаписать этот файл.

Следующая 1 страница ссылается на данный файл: