一种基于深度语义理解的信息抽取方法

基本信息

申请号 CN201811045718.7 申请日 -
公开(公告)号 CN110889275A 公开(公告)日 2020-03-17
申请公布号 CN110889275A 申请公布日 2020-03-17
分类号 G06F40/211;G06F40/295;G06F40/30;G06F40/247;G06F16/35 分类 计算;推算;计数;
发明人 徐祯琦;李超;吴雪军 申请(专利权)人 鼎复数据科技(北京)有限公司
代理机构 北京康思博达知识产权代理事务所(普通合伙) 代理人 鼎复数据科技(北京)有限公司
地址 100020 北京市朝阳区北辰世纪中心A座1550
法律状态 -

摘要

摘要 本发明提供了一种基于深度语义理解的信息抽取方法,包括:构建该领域的本体和基本关系,并对部分语料进行人工标注;对人工标注的语料进行处理,识别出特定关系所对应的实体类型,同时挖掘领域中的新词与同义词;合并句子中识别出的同义词,对原始句子进行抽象,进行句法分析;将抽象后的句子聚类为句子模板,进行模版学习;进行句子模版评估;利用句子模板对人工未标注的语料进行新关系抽取,并对新关系进行评估过滤。本发明提供的方法能够更好的利用句法分析结果,使得自动挖掘出的模板具有更高层次的抽象和泛化能力。