一种数值型数据库表中异常数据检测方法

基本信息

申请号 CN202011428152.3 申请日 -
公开(公告)号 CN112732707A 公开(公告)日 2021-04-30
申请公布号 CN112732707A 申请公布日 2021-04-30
分类号 G06F16/22;G06K9/62 分类 计算;推算;计数;
发明人 彭亚楠;黄浩;李宗鹏 申请(专利权)人 南京万般上品信息技术有限公司
代理机构 - 代理人 -
地址 211800 江苏省南京市中国(江苏)自由已试验区南京片区研创园团结路99号孵鹰大厦1914室
法律状态 -

摘要

摘要 本发明公开了一种数值型数据库表中异常数据检测方法,首先,对于给定未标签数据集S构造其k近邻图,其中k值由算法自动选取;然后基于构造的k近邻图,给定变化系数Vc(Variationcoefficient)的定义,对数据集中的每一个节点计算其变化系数Vc值;接着从所有节点中找出Vc值最大的节点x,并向贴标者询问得到其类别标签yx,并分别将x与yx加入所选数据样本集合I与所选数据样本真实类别标签集合L中。本发明通过建立数据集的k近邻图,能够充分利用局部数据分布的突变定位异常区域,并显著减少了发现数据集中全部异常数据所需要的问询次数,从而提升异常数据检测的发现效率和准确率。