一种适用于法律热线语音识别的文本纠错和补全方法
基本信息
申请号 | CN202011357749.3 | 申请日 | - |
公开(公告)号 | CN112183073A | 公开(公告)日 | 2021-01-05 |
申请公布号 | CN112183073A | 申请公布日 | 2021-01-05 |
分类号 | G06F40/232(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 郑茂盛 | 申请(专利权)人 | 北京擎盾信息科技有限公司 |
代理机构 | 北京中政联科专利代理事务所(普通合伙) | 代理人 | 北京擎盾信息科技有限公司 |
地址 | 100070北京市丰台区南四环西路188号十八区25号楼101内6层601室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种适用于法律热线语音识别的文本纠错和补全方法,包括:对语音识别的初始文本分词并注音,得到待纠错文本;计算待纠错文本与法律词汇的编辑距离,将待纠错文本进行预测,得到第一概率预测值;将编辑距离值、关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第一分数和第二分数;根据第一分数判断是否需要纠错,并进行纠正;根据第二分数判断是否需要补全,并补全文本。采用预训练语言模型和编辑距离的计算,可以针对性解决法律领域的语音识别错漏问题,进行有效的纠错。另外,本发明在进行语音识别纠错的同时,对法律领域的语音识别文本进行补全,将语音识别文本的语义补充完整,方便后续的理解与使用。 |
