海量数据实体相似对确定方法和系统

基本信息

申请号 CN202010499977.8 申请日 -
公开(公告)号 CN111737462A 公开(公告)日 2020-10-02
申请公布号 CN111737462A 申请公布日 2020-10-02
分类号 G06F16/35(2019.01)I 分类 -
发明人 王宏志;秦谦;姜涛 申请(专利权)人 江苏名通信息科技有限公司
代理机构 南京纵横知识产权代理有限公司 代理人 江苏名通信息科技有限公司
地址 212004江苏省镇江市京口区学府路118号京口高创中心6楼
法律状态 -

摘要

摘要 本发明公开了海量数据实体相似对确定方法和系统,包括对数据根据相同属性值进行实体初步聚类;根据实体聚类结果确定初选相似实体对;计算初选相似实体对在所有属性下的总相似度,将获得的总相似度与预先确定的相似度阈值进行比较,获得确定的相似实体对集合。本发明首先进行了初选相似实体对的识别,再次基础上在进行相似实体对的确认,能够快速有效地进行大数据量、更新频繁和具有复杂结构数据上的实体相似度的判定。