一种基于数据样本图像化的数据甄别的方法与系统

基本信息

申请号 CN202111370028.0 申请日 -
公开(公告)号 CN113806338B 公开(公告)日 2022-02-18
申请公布号 CN113806338B 申请公布日 2022-02-18
分类号 G06F16/21(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 邵俊;张磊 申请(专利权)人 深圳索信达数据技术有限公司
代理机构 北京市隆安律师事务所 代理人 杨云
地址 518063广东省深圳市南山区粤海街道高新区社区高新南六道6号迈科龙大厦1801、1901
法律状态 -

摘要

摘要 本发明公开了一种基于数据样本图像化的数据甄别的方法与系统,其中方法包括:从服务器获取用户信息;对用户信息进行标准化处理,得到第一数据集;对第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图;选取全部正样本对应的轮廓图,并使用GAN方法生成更多的正样本,以使得样本的正负比例趋于均衡;从二维彩色等高线轮廓图中提取低维特征向量,基于用户信息构建新的XGBoost第二XGBoost模型;基于新的XGBoost第二XGBoost模型进行数据甄别。本发明可以生成图像的方式产生更多的正样本,达到正负样本的均衡,避免了常规的SMOTE等基于线性插值的过采样方法引入的额外的偏差,使得甄别结果更加精确,性能更优。