一种数据采样方法及装置
基本信息
申请号 | CN201910763259.4 | 申请日 | - |
公开(公告)号 | CN110580498A | 公开(公告)日 | 2019-12-17 |
申请公布号 | CN110580498A | 申请公布日 | 2019-12-17 |
分类号 | G06K9/62(2006.01) | 分类 | 计算;推算;计数; |
发明人 | 彭亚楠; 李宗鹏; 黄浩 | 申请(专利权)人 | 武汉万般上品信息技术有限公司 |
代理机构 | 武汉科皓知识产权代理事务所(特殊普通合伙) | 代理人 | 武汉万般上品信息技术有限公司 |
地址 | 430073 湖北省武汉市东湖新技术开发区光谷大道303光谷芯中心2-07栋201-03室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种数据采样方法,首先选取给定数据集D的最主要维度,得到新的数据集D*;然后在D*的每个维度上计算最优的直方图带宽,根据最优带宽在各个维度上使用直方图密度估计划分格子,组成网格,使得网格中包含尽可能多的密度相似、位置相近的数据样本;选取各个网格中具有最高样本数的预设比例的非空格,计算格中数据样本的均值作为初始点,运行K‑均值聚类算法将数据集分解为小聚类,并返回各个聚类的中心的作为最后选取的采样点。本发明可以使采样结果较好地保持原始数据分布形状信息,从而较好地完成数据预处理工作,改善采样效果,提高计算效率。 |
