语音识别模型的训练样本选取方法、装置及介质

基本信息

申请号 CN202010547282.2 申请日 -
公开(公告)号 CN111710328A 公开(公告)日 2020-09-25
申请公布号 CN111710328A 申请公布日 2020-09-25
分类号 G10L15/06(2013.01)I 分类 乐器;声学;
发明人 陶焜 申请(专利权)人 北京爱医声科技有限公司
代理机构 北京鸿元知识产权代理有限公司 代理人 北京爱医声科技有限公司
地址 100095北京市海淀区学清路10号院1号楼A座19层1903
法律状态 -

摘要

摘要 本发明公开了一种语音识别模型的训练样本选取方法、装置及介质,其中,方法包括:获取待识别语音的正确读音训练样本;对待识别语音中的汉字进行形近字扩展;利用扩展的形近字构建形成容错训练样本;将所述正确读音训练样本与所述容错训练样本融合为模型训练样本,用于对语音识别模型进行训练。本发明对训练样本进行读音容错处理,提高了语音识别系统的容错性,达到即使在读音错误的情况下输入法也能提供正确候选词的目的,从而提升语音输入的准确率和实用性。