大数据缺失值填充方法、装置和计算机程序

基本信息

申请号 CN202010499997.5 申请日 -
公开(公告)号 CN111737463A 公开(公告)日 2020-10-02
申请公布号 CN111737463A 申请公布日 2020-10-02
分类号 G06F16/35(2019.01)I;G06F40/30(2020.01)I 分类 -
发明人 王宏志;秦谦;姜涛 申请(专利权)人 江苏名通信息科技有限公司
代理机构 南京纵横知识产权代理有限公司 代理人 江苏名通信息科技有限公司
地址 212004江苏省镇江市京口区学府路118号京口高创中心6楼
法律状态 -

摘要

摘要 本发明公开了大数据缺失值填充方法、装置和计算机程序,对数据集中的缺失值按照语义进行区分,确定所有存在性缺失值;确定所有存在性缺失值的数值类型;对各待填充数值类型分别采用不同的方法进行缺失值填充。本发明对于数据中的缺失值按照语义分为三种,重点关注存在型缺失值,通过各用户提供各自的答案,从得到的答案可以分为一些是相似或相同的。本发明方法简单,复杂度大大降低,并且通过各用户提供答案可降低开销同时能提高填充准确度,实现面向大数据的缺失值填充,考虑到对大数据的适应性,本发明提供的计算机程序可以完成三种类型数据的一轮计算,提升了填充效率。