用于机器学习算法的数据预处理方法及相关设备

基本信息

申请号 CN202110513199.8 申请日 -
公开(公告)号 CN113157987A 公开(公告)日 2021-07-23
申请公布号 CN113157987A 申请公布日 2021-07-23
分类号 G06F16/9035;G06K9/62;G06N20/00 分类 计算;推算;计数;
发明人 郑凤 申请(专利权)人 航天网安技术(深圳)有限公司
代理机构 北京风雅颂专利代理有限公司 代理人 孙晓凤
地址 518067 广东省深圳市南山区粤海街道深圳湾生态科技园十一栋11A四楼裙楼A06房
法律状态 -

摘要

摘要 本公开提供一种用于机器学习算法的数据预处理方法及相关设备,所述方法包括:获取待处理的原始数据;基于所述原始数据每个特征的缺失值进行筛查,以得到第一筛查数据;基于所述第一筛查数据中每个特征的相同值进行筛查,以确定第二筛查数据;将所述第二筛查数据中每个特征的缺失值进行填充,以得到完整数据;将所述完整数据按照预设的标准化处理规则进行标准化处理,以获取所述标准化处理后的完整数据。本公开实施例能够对结构化数据进行数据预处理,通过对数据的异常值进行处理,提高了数据的可用性和数据质量,节省了在机器学习算法开发时的大量人力物力。