一种适用于法律热线语音识别的文本纠错和补全方法

基本信息

申请号 CN202011357749.3 申请日 -
公开(公告)号 CN112183073A 公开(公告)日 2021-01-05
申请公布号 CN112183073A 申请公布日 2021-01-05
分类号 G06F40/232(2020.01)I 分类 计算;推算;计数;
发明人 郑茂盛 申请(专利权)人 北京擎盾信息科技有限公司
代理机构 北京中政联科专利代理事务所(普通合伙) 代理人 北京擎盾信息科技有限公司
地址 100070北京市丰台区南四环西路188号十八区25号楼101内6层601室
法律状态 -

摘要

摘要 本发明公开了一种适用于法律热线语音识别的文本纠错和补全方法,包括:对语音识别的初始文本分词并注音,得到待纠错文本;计算待纠错文本与法律词汇的编辑距离,将待纠错文本进行预测,得到第一概率预测值;将编辑距离值、关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第一分数和第二分数;根据第一分数判断是否需要纠错,并进行纠正;根据第二分数判断是否需要补全,并补全文本。采用预训练语言模型和编辑距离的计算,可以针对性解决法律领域的语音识别错漏问题,进行有效的纠错。另外,本发明在进行语音识别纠错的同时,对法律领域的语音识别文本进行补全,将语音识别文本的语义补充完整,方便后续的理解与使用。