一种基于深度学习双模型的语音连续事件提取方法

基本信息

申请号 CN202111071939.3 申请日 -
公开(公告)号 CN113870866A 公开(公告)日 2021-12-31
申请公布号 CN113870866A 申请公布日 2021-12-31
分类号 G10L17/10(2013.01)I;G10L17/04(2013.01)I;G10L17/02(2013.01)I;G10L17/14(2013.01)I;G10L17/18(2013.01)I 分类 乐器;声学;
发明人 王圣川;王珂;景亮;阳承毅;张俊 申请(专利权)人 电信科学技术第五研究所有限公司
代理机构 成都九鼎天元知识产权代理有限公司 代理人 徐静
地址 610021四川省成都市锦江区大慈寺路22号
法律状态 -

摘要

摘要 本发明提供一种基于深度学习双模型的语音连续事件提取方法,包括:对用于训练的语音信号文件进行相应的预处理分别得到VOC格式数据集和三元组数据集;采用VOC格式数据集训练YOLOV3深度学习模型;采用三元组数据集训练构建的深度学习人声分类网络模型;利用训练好的YOLOV3深度学习模型和深度学习人声分类网络模型对待预测语音信号文件进行预测得到特征向量;利用特征向量判断对应的语音事件是否是相同人声,并合并相同人声的语音事件后从原始的待预测语音信号文件中提取语音事件。本发明通过深度学习双模型的方式提取语音事件,抗噪声能力强,灵敏度高,即使在语音信号较弱的情况下效果依然显著。