海量数据实体相似对确定方法和系统
基本信息
申请号 | CN202010499977.8 | 申请日 | - |
公开(公告)号 | CN111737462A | 公开(公告)日 | 2020-10-02 |
申请公布号 | CN111737462A | 申请公布日 | 2020-10-02 |
分类号 | G06F16/35(2019.01)I | 分类 | - |
发明人 | 王宏志;秦谦;姜涛 | 申请(专利权)人 | 江苏名通信息科技有限公司 |
代理机构 | 南京纵横知识产权代理有限公司 | 代理人 | 江苏名通信息科技有限公司 |
地址 | 212004江苏省镇江市京口区学府路118号京口高创中心6楼 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了海量数据实体相似对确定方法和系统,包括对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;计算初选相似实体对在所有属性下的总相似度,将获得的总相似度与预先确定的相似度阈值进行比较,获得确定的相似实体对集合。本发明首先进行了初选相似实体对的识别,再次基础上在进行相似实体对的确认,能够快速有效地进行大数据量、更新频繁和具有复杂结构数据上的实体相似度的判定。 |
