一种基于语音识别的文本确定方法及系统

基本信息

申请号 CN202010326878.X 申请日 -
公开(公告)号 CN111523327A 公开(公告)日 2020-08-11
申请公布号 CN111523327A 申请公布日 2020-08-11
分类号 G06F40/295(2020.01)I 分类 -
发明人 吕志坚;何余良;徐冠宁 申请(专利权)人 北京市科学技术情报研究所
代理机构 北京高沃律师事务所 代理人 北京市科学技术情报研究所;北京若本机器人科技有限公司
地址 100044北京市西城区西外大街140号
法律状态 -

摘要

摘要 本发明涉及一种基于语音识别的文本确定方法及系统。该方法包括获取语音文件;根据所述语音文件生成第一文本;对所述第一文本进行预处理;采用BERT算法提取所述预处理后的第一文本中的所有实体,得到实体集合;对所述实体集合中的所有实体采用注意力模型确定多个三元组;对所有所述三元组进行重组,确定第二文本;所述第二文本为符合语法结构的文本。本发明所提供得一种基于语音识别的文本确定方法及系统,能够提高通过语音识别生成的文本信息的可读性。