一种基于文本结构的文本分析方法、系统、设备和介质

基本信息

申请号 CN202210145827.6 申请日 -
公开(公告)号 CN114611484A 公开(公告)日 2022-06-10
申请公布号 CN114611484A 申请公布日 2022-06-10
分类号 G06F40/205(2020.01)I;G06F40/258(2020.01)I;G06F40/284(2020.01)I;G06K9/62(2022.01)I 分类 计算;推算;计数;
发明人 许伟;杜玮;王明明;徐顿 申请(专利权)人 中国人民大学
代理机构 北京纪凯知识产权代理有限公司 代理人 -
地址 100872北京市海淀区中关村大街59号中国人民大学
法律状态 -

摘要

摘要 本发明涉及一种基于文本结构的文本分析方法、系统、设备和介质,其包括以下步骤:对获取的待分析文本进行解析,得到其文本结构;分别对待分析文本的各文本结构进行机器阅读,得到各文本结构所对应的嵌入向量;将得到的各嵌入向量进行融合,得到融合的文章嵌入向量;基于融合得到的文章嵌入向量得到文本分析结果。本发明考虑了文章结构对于机器理解的重要意义,依照摘要‑段落{段落标题‑段落内容}的结构进行解析,使模型具有了分结构阅读的能力。因此,本发明可以广泛应用于文本分析领域。