基于人机对话的训练数据的生成方法、装置和设备

基本信息

申请号 CN202111504406.X 申请日 -
公开(公告)号 CN114203166A 公开(公告)日 2022-03-18
申请公布号 CN114203166A 申请公布日 2022-03-18
分类号 G10L15/06(2013.01)I;G10L15/04(2013.01)I;G10L15/02(2006.01)I;G10L15/10(2006.01)I 分类 乐器;声学;
发明人 王刚;曾文佳;陈新月;宋成业;冯梦盈;梁鹏斌;李航;韩亚昕 申请(专利权)人 零犀(北京)科技有限公司
代理机构 北京超凡宏宇专利代理事务所(特殊普通合伙) 代理人 唐正瑜
地址 100000北京市海淀区上地信息路2号1号楼19层19B-3
法律状态 -

摘要

摘要 本申请提供一种基于人机对话的训练数据的生成方法、装置和设备,所述基于人机对话的训练数据的生成方法:获取错误文本、所述错误文本的标注文本和所述错误文本对应的完整语音,所述错误文本是第一语音识别模型识别出的、被判定为识别错误的语音的识别结果,所述第一语音识别模型是还未训练好的语音识别模型;使用第二语音识别模型对每个所述分段语音进行语音识别,得到每个所述分段语音的分段文本,所述第二语音识别模型是已经训练好的语音识别模型;计算所述错误文本或所述标注文本,与,每个所述分段文本之间的相似度,得到最大相似度对应的目标分段文本;将所述标注文本和所述目标分段文本对应的分段语音进行组合,得到训练数据。