一种高效的引用关系发现方法

基本信息

申请号 CN201710409917.0 申请日 -
公开(公告)号 CN107145601B 公开(公告)日 2017-09-08
申请公布号 CN107145601B 申请公布日 2017-09-08
分类号 G06F16/28(2019.01)I;G06F16/20(2019.01)I 分类 -
发明人 王琤;贾天宇 申请(专利权)人 北京数语科技有限公司
代理机构 - 代理人 -
地址 100000北京市海淀区西杉创意园四区三号楼三层235号
法律状态 -

摘要

摘要 本发明公开了高效的引用关系发现方法,输入信息是基于文档的数据集,输出是发现数据集之间的关系,连接文档型数据库MongoDB并提取MongoDB的数据模型后浏览MonogDB中的所有数据集合,去除重复的数据,分析该数据集各属性间的依赖关系,找出超级键,超级键是一个属性集合,可以确定本文档中的每个属性,再根据数据集超级键之间的依赖关系,发现数据集之间的关系。本发明使用数据模型信息和数据类型分布来改进了Tane算法,使其更加高效,更适合文档型数据集,可以用于文档型数据集的规范化,数据清理等任务。