Файл:LTSM tiem and frequency recurrence for automatic speech recognition Spectral LSTM.pdf

Материал из Материалы по машинному обучению
Перейти к: навигация, поиск
LTSM_tiem_and_frequency_recurrence_for_automatic_speech_recognition_Spectral_LSTM.pdf(0 × 0 пикселей, размер файла: 644 КБ, MIME-тип: application/pdf)

Jinyu Li, Abdelrahman Mohamed, Geoffrey Zweig, and Yifan Gong

Microsoft Corporation, One Microsoft Way, Redmond, WA 98052 { jinyli, asamir, gzweig, ygong}@microsoft.com


Long short-term memory (LSTM) recurrent neural networks (RNNs) have recently shown significant performance improvements over deep feed-forward neural networks (DNNs). A key aspect of these models is the use of time recurrence, combined with a gating architecture that ameliorates the vanishing gradient problem. Inspired by human spectrogram reading, in this paper we propose an extension to LSTMs that performs the recurrence in frequency as well as in time. This model first scans the frequency bands to generate a summary of the spectral information, and then uses the output layer activations as the input to a traditional time LSTM (T-LSTM). Evaluated on a Microsoft short message dictation task, the proposed model obtained a 3.6% relative word error rate reduction over the TLSTM.

Index Terms — LSTM, RNN, time and frequency

История файла

Нажмите на дату/время, чтобы просмотреть, как тогда выглядел файл.

текущий16:11, 22 декабря 20160 × 0 (644 КБ)Slikos (обсуждение | вклад)
  • Вы не можете перезаписать этот файл.

Следующая 1 страница ссылается на данный файл: