一种基于CTC的声学模型训练方法

基本信息

申请号 CN201710002096.9 申请日 -
公开(公告)号 CN108269568B 公开(公告)日 2021-07-30
申请公布号 CN108269568B 申请公布日 2021-07-30
分类号 G10L15/14(2006.01)I;G10L15/16(2006.01)I;G10L15/02(2006.01)I 分类 乐器;声学;
发明人 张鹏远;王智超;潘接林;颜永红 申请(专利权)人 北京中科信利技术有限公司
代理机构 北京方安思达知识产权代理有限公司 代理人 王宇杨;杨青
地址 100190北京市海淀区北四环西路21号
法律状态 -

摘要

摘要 本发明提供一种基于CTC的声学模型训练的方法,该方法包括:步骤1、训练一个初始的GMM模型,用该GMM模型对训练数据的文本标注进行时间点强制对齐,得到每个音素所对应的时间区域;步骤2、在每个音素后插入一个与该音素相关的“空白”符号,每个音素拥有一个特有的“空白”符号;步骤3、采用有限状态机,对加入“空白”符号后的音素标注序列构建一个CTC前后向计算的搜索路径图;步骤4、根据时间对齐结果,对每个音素出现的时间范围进行限制,并对该搜索路径图进行剪枝,将音素位置超出时间限制的路径减掉,得到最终CTC计算网络误差时所需的搜索路径图;步骤5、采用延时神经网络(Time‑delay Neural Network,TDNN)结构结合CTC方法进行声学模型训练,得到最终的TDNN‑CTC声学模型。