LAS

Listen, Attend and Spell(LAS)模型, 是一个端到端的语音识别神经网络, 能够将音频信号直接转录为文字序列. 它主要由两个组件构成, Listener(监听器)是一个金字塔结构的RNN编码器, 接受滤波器组频谱作为输入, 将音频信号转为高层特征表示; Speller(拼写器)是一个基于注意力机制的RNN解码器, 输出字符序列, 它通过注意力机制将编码器的高层特征转为字符概率分布.

LAS相比于之前端到端方法的核心优势是不对字符之间做独立性假设. 传统的CTC模型假设每个时间步之间的输出相互独立, 而LAS通过序列到序列学习框架和注意力机制, 能够学习字符之间的依赖关系.