一种语料获取方法及装置
基本信息
申请号 | CN202110019112.1 | 申请日 | - |
公开(公告)号 | CN112863490A | 公开(公告)日 | 2021-05-28 |
申请公布号 | CN112863490A | 申请公布日 | 2021-05-28 |
分类号 | G10L25/51(2013.01)I;G10L15/04(2013.01)I;G10L15/26(2006.01)I;G10L15/06(2013.01)I | 分类 | 乐器;声学; |
发明人 | 马金龙;熊佳;汪暾;罗箫;焦南凯;徐志坚;谢睿;陈光尧 | 申请(专利权)人 | 广州欢城文化传媒有限公司 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 杨小红 |
地址 | 510000广东省广州市天河区黄埔大道西122号之二1901房 | ||
法律状态 | - |
摘要
摘要 | 本申请公开了一种语料获取方法及装置,方法包括:获取语音样本;过滤语音样本中的截断语音以及无效语音,获取合格的语音样本;对合格的语音样本进行多次语音识别,得到多个对应的语音文本;将多个语音文本进行比对,得到相似度得分;若相似度得分大于预设的相似度阈值,则将大于相似度阈值的语音样本作为待标注语音样本,并将文字内容最长的语音文本作为待标注语音文本;将待标注语音文本进行人工标注,得到标注样本。解决了现有技术获取训练用的语音样本时间周期长,花费成本高的技术问题。 |
