基于结合图结构信息和文本语义模型的实体对齐方法
基本信息
申请号 | CN202111616769.2 | 申请日 | - |
公开(公告)号 | CN114417809A | 公开(公告)日 | 2022-04-29 |
申请公布号 | CN114417809A | 申请公布日 | 2022-04-29 |
分类号 | G06F40/189(2020.01)I;G06F40/279(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 董嘉诚;杨磊 | 申请(专利权)人 | 北京滴普科技有限公司 |
代理机构 | 北京中政联科专利代理事务所(普通合伙) | 代理人 | 赖学能 |
地址 | 100000北京市海淀区彩和坊路8号4层406 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了基于结合图结构信息和文本语义模型的实体对齐方法,属于计算机网络技术领域,通过提取非结构化文本数据实体信息、实体属性信息和实体关系信息,并组成原始三元组数据,生成基于图结构实体嵌入表示,并计算不同实体间余弦相似度,提取实体在原文中上下文关于机构和人名信息,用作实体辅助描述信息,计算不同实体间描述信息是否有交集,计算不同实体名称编辑距离、word2vec余弦相似度,基于预训练模型计算不同实体名称语义相似度,综合相似度得分以判定两个实体是否为同一实体,本发明综合利用图结构信息、字符信息和语义信息来判定实体之间相似度,充分利用实体图结构信息和语义信息进行实体对齐,提高在共有信息稀疏时对齐的准确度。 |
