一种语音标注数据生成方法及装置、语音识别系统专利查询专利号|摘要-满商公司网

一种语音标注数据生成方法及装置、语音识别系统

基本信息

摘要

摘要	本发明提供了一种语音标注数据生成方法及装置、语音识别系统，其中，所述语音标注数据生成方法包括：按预设间隔对目标视频进行抽帧，得到多个目标帧；识别每个目标帧的文本信息、开始时间以及结束时间；顺次计算当前目标帧的文本信息与相邻上一目标帧的文本信息的文本相似度；根据文本相似度确定每个文本信息的开始时间以及结束时间；按照每个文本信息的开始时间及结束时间，分别在目标视频中截取相应的音频片段，并将音频片段与对应文本信息相匹配，生成语音标注数据。减少了人工标注的工作量，提高了语音标注数据生成效率。