一种基于CTC的声学模型训练方法
基本信息
申请号 | CN201710002096.9 | 申请日 | - |
公开(公告)号 | CN108269568B | 公开(公告)日 | 2021-07-30 |
申请公布号 | CN108269568B | 申请公布日 | 2021-07-30 |
分类号 | G10L15/14(2006.01)I;G10L15/16(2006.01)I;G10L15/02(2006.01)I | 分类 | 乐器;声学; |
发明人 | 张鹏远;王智超;潘接林;颜永红 | 申请(专利权)人 | 北京中科信利技术有限公司 |
代理机构 | 北京方安思达知识产权代理有限公司 | 代理人 | 王宇杨;杨青 |
地址 | 100190北京市海淀区北四环西路21号 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种基于CTC的声学模型训练的方法,该方法包括:步骤1、训练一个初始的GMM模型,用该GMM模型对训练数据的文本标注进行时间点强制对齐,得到每个音素所对应的时间区域;步骤2、在每个音素后插入一个与该音素相关的“空白”符号,每个音素拥有一个特有的“空白”符号;步骤3、采用有限状态机,对加入“空白”符号后的音素标注序列构建一个CTC前后向计算的搜索路径图;步骤4、根据时间对齐结果,对每个音素出现的时间范围进行限制,并对该搜索路径图进行剪枝,将音素位置超出时间限制的路径减掉,得到最终CTC计算网络误差时所需的搜索路径图;步骤5、采用延时神经网络(Time‑delay Neural Network,TDNN)结构结合CTC方法进行声学模型训练,得到最终的TDNN‑CTC声学模型。 |
