综述分享
End-to-End Speech Recognition: A Survey
classical statistical architecture
分为4个components
- 语音音频信号特征提取
- 声学建模
- based on hidden Markov models (HMM)
- 语言建模
- 基于贝叶斯决策规则的搜索
符号定义
- H(h1 … ht)代表一系列acoustic frame,每个frame分为d个特征(好像)
- C(c1 … cl)代表l个转录后的文字
- 最终求的是条件概率P(C | H): 即给定frame后估算被转录为C这个文字的概率
Attention-based E2E Approaches with Alignment Modeling
- 非常依赖acoustic sequences的长度