一种语料获取方法及装置

基本信息

申请号 CN202110019112.1 申请日 -
公开(公告)号 CN112863490A 公开(公告)日 2021-05-28
申请公布号 CN112863490A 申请公布日 2021-05-28
分类号 G10L25/51(2013.01)I;G10L15/04(2013.01)I;G10L15/26(2006.01)I;G10L15/06(2013.01)I 分类 乐器;声学;
发明人 马金龙;熊佳;汪暾;罗箫;焦南凯;徐志坚;谢睿;陈光尧 申请(专利权)人 广州欢城文化传媒有限公司
代理机构 北京集佳知识产权代理有限公司 代理人 杨小红
地址 510000广东省广州市天河区黄埔大道西122号之二1901房
法律状态 -

摘要

摘要 本申请公开了一种语料获取方法及装置,方法包括:获取语音样本;过滤语音样本中的截断语音以及无效语音,获取合格的语音样本;对合格的语音样本进行多次语音识别,得到多个对应的语音文本;将多个语音文本进行比对,得到相似度得分;若相似度得分大于预设的相似度阈值,则将大于相似度阈值的语音样本作为待标注语音样本,并将文字内容最长的语音文本作为待标注语音文本;将待标注语音文本进行人工标注,得到标注样本。解决了现有技术获取训练用的语音样本时间周期长,花费成本高的技术问题。