一种语音标注数据生成方法及装置、语音识别系统

基本信息

申请号 CN202110607045.5 申请日 -
公开(公告)号 CN113395544A 公开(公告)日 2021-09-14
申请公布号 CN113395544A 申请公布日 2021-09-14
分类号 H04N21/234(2011.01)I;H04N21/2343(2011.01)I;H04N21/44(2011.01)I;H04N21/4402(2011.01)I;G06K9/32(2006.01)I 分类 电通信技术;
发明人 贾瑶 申请(专利权)人 北京人人网互动科技有限公司
代理机构 北京城烽知识产权代理事务所(特殊普通合伙) 代理人 王新月
地址 100192北京市海淀区宝盛东路兴华绿色产业楼二层205室(东升地区)
法律状态 -

摘要

摘要 本发明提供了一种语音标注数据生成方法及装置、语音识别系统,其中,所述语音标注数据生成方法包括:按预设间隔对目标视频进行抽帧,得到多个目标帧;识别每个目标帧的文本信息、开始时间以及结束时间;顺次计算当前目标帧的文本信息与相邻上一目标帧的文本信息的文本相似度;根据文本相似度确定每个文本信息的开始时间以及结束时间;按照每个文本信息的开始时间及结束时间,分别在目标视频中截取相应的音频片段,并将音频片段与对应文本信息相匹配,生成语音标注数据。减少了人工标注的工作量,提高了语音标注数据生成效率。