一种基于数据样本图像化的数据甄别的方法与系统
基本信息
申请号 | CN202111370028.0 | 申请日 | - |
公开(公告)号 | CN113806338B | 公开(公告)日 | 2022-02-18 |
申请公布号 | CN113806338B | 申请公布日 | 2022-02-18 |
分类号 | G06F16/21(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 邵俊;张磊 | 申请(专利权)人 | 深圳索信达数据技术有限公司 |
代理机构 | 北京市隆安律师事务所 | 代理人 | 杨云 |
地址 | 518063广东省深圳市南山区粤海街道高新区社区高新南六道6号迈科龙大厦1801、1901 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于数据样本图像化的数据甄别的方法与系统,其中方法包括:从服务器获取用户信息;对用户信息进行标准化处理,得到第一数据集;对第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图;选取全部正样本对应的轮廓图,并使用GAN方法生成更多的正样本,以使得样本的正负比例趋于均衡;从二维彩色等高线轮廓图中提取低维特征向量,基于用户信息构建新的XGBoost第二XGBoost模型;基于新的XGBoost第二XGBoost模型进行数据甄别。本发明可以生成图像的方式产生更多的正样本,达到正负样本的均衡,避免了常规的SMOTE等基于线性插值的过采样方法引入的额外的偏差,使得甄别结果更加精确,性能更优。 |
