一种数据采样方法及装置

基本信息

申请号 CN201910763259.4 申请日 -
公开(公告)号 CN110580498A 公开(公告)日 2019-12-17
申请公布号 CN110580498A 申请公布日 2019-12-17
分类号 G06K9/62(2006.01) 分类 计算;推算;计数;
发明人 彭亚楠; 李宗鹏; 黄浩 申请(专利权)人 武汉万般上品信息技术有限公司
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 代理人 武汉万般上品信息技术有限公司
地址 430073 湖北省武汉市东湖新技术开发区光谷大道303光谷芯中心2-07栋201-03室
法律状态 -

摘要

摘要 本发明公开了一种数据采样方法,首先选取给定数据集D的最主要维度,得到新的数据集D*;然后在D*的每个维度上计算最优的直方图带宽,根据最优带宽在各个维度上使用直方图密度估计划分格子,组成网格,使得网格中包含尽可能多的密度相似、位置相近的数据样本;选取各个网格中具有最高样本数的预设比例的非空格,计算格中数据样本的均值作为初始点,运行K‑均值聚类算法将数据集分解为小聚类,并返回各个聚类的中心的作为最后选取的采样点。本发明可以使采样结果较好地保持原始数据分布形状信息,从而较好地完成数据预处理工作,改善采样效果,提高计算效率。