一种基于深度语义理解的信息抽取方法
基本信息
申请号 | CN201811045718.7 | 申请日 | - |
公开(公告)号 | CN110889275A | 公开(公告)日 | 2020-03-17 |
申请公布号 | CN110889275A | 申请公布日 | 2020-03-17 |
分类号 | G06F40/211;G06F40/295;G06F40/30;G06F40/247;G06F16/35 | 分类 | 计算;推算;计数; |
发明人 | 徐祯琦;李超;吴雪军 | 申请(专利权)人 | 鼎复数据科技(北京)有限公司 |
代理机构 | 北京康思博达知识产权代理事务所(普通合伙) | 代理人 | 鼎复数据科技(北京)有限公司 |
地址 | 100020 北京市朝阳区北辰世纪中心A座1550 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种基于深度语义理解的信息抽取方法,包括:构建该领域的本体和基本关系,并对部分语料进行人工标注;对人工标注的语料进行处理,识别出特定关系所对应的实体类型,同时挖掘领域中的新词与同义词;合并句子中识别出的同义词,对原始句子进行抽象,进行句法分析;将抽象后的句子聚类为句子模板,进行模版学习;进行句子模版评估;利用句子模板对人工未标注的语料进行新关系抽取,并对新关系进行评估过滤。本发明提供的方法能够更好的利用句法分析结果,使得自动挖掘出的模板具有更高层次的抽象和泛化能力。 |
