一种基于注意力贡献度的实体关系抽取方法及其用途

基本信息

申请号 CN202111410469.9 申请日 -
公开(公告)号 CN114417846A 公开(公告)日 2022-04-29
申请公布号 CN114417846A 申请公布日 2022-04-29
分类号 G06F40/284(2020.01)I;G06F40/242(2020.01)I;G06N20/00(2019.01)I 分类 计算;推算;计数;
发明人 欧阳建权;张晶;李波 申请(专利权)人 湖南海龙国际智能科技股份有限公司
代理机构 北京卓恒知识产权代理事务所(特殊普通合伙) 代理人 徐楼;卜婷
地址 411105湖南省湘潭市雨湖区羊牯塘卢家滩27号
法律状态 -

摘要

摘要 本发明提供一种基于注意力贡献度的实体关系抽取方法,该方法通过spaCy对数据集中的原始句子进行分词,得到词列表,将词列表和标签以字典形式存入输入数据集D;然后对输入数据集D进行采样,获得输入数据集D中每个句子的实体样本集和关系样本集;选用在大规模生物医学语料库、司法数据库、旅游数据库上预训练的BERT模型,采用注意力贡献度算法计算实体之间的交互信息,再传递给下游的实体抽取和关系抽取任务,构成基于span的实体关系抽取模型;最后将实体样本集和关系样本集放入基于span的实体关系抽取模型训练,极大的提高了实体抽取任务的F1值和关系抽取任务的F1值。