一种数值型数据库表中异常数据检测方法
基本信息
申请号 | CN202011428152.3 | 申请日 | - |
公开(公告)号 | CN112732707A | 公开(公告)日 | 2021-04-30 |
申请公布号 | CN112732707A | 申请公布日 | 2021-04-30 |
分类号 | G06F16/22;G06K9/62 | 分类 | 计算;推算;计数; |
发明人 | 彭亚楠;黄浩;李宗鹏 | 申请(专利权)人 | 南京万般上品信息技术有限公司 |
代理机构 | - | 代理人 | - |
地址 | 211800 江苏省南京市中国(江苏)自由已试验区南京片区研创园团结路99号孵鹰大厦1914室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种数值型数据库表中异常数据检测方法,首先,对于给定未标签数据集S构造其k近邻图,其中k值由算法自动选取;然后基于构造的k近邻图,给定变化系数Vc(Variationcoefficient)的定义,对数据集中的每一个节点计算其变化系数Vc值;接着从所有节点中找出Vc值最大的节点x,并向贴标者询问得到其类别标签yx,并分别将x与yx加入所选数据样本集合I与所选数据样本真实类别标签集合L中。本发明通过建立数据集的k近邻图,能够充分利用局部数据分布的突变定位异常区域,并显著减少了发现数据集中全部异常数据所需要的问询次数,从而提升异常数据检测的发现效率和准确率。 |
