一种基于集成学习技术的高维度数据预测方法

基本信息

申请号 CN201910394269.5 申请日 -
公开(公告)号 CN110516818A 公开(公告)日 2019-11-29
申请公布号 CN110516818A 申请公布日 2019-11-29
分类号 G06N20/20;G06N3/12 分类 计算;推算;计数;
发明人 刘江川;张聪;樊小毅;庞海天;杨洋;邵俊松 申请(专利权)人 南京江行联加智能科技有限公司
代理机构 北京翔瓯知识产权代理有限公司 代理人 南京江行联加智能科技有限公司
地址 210000 江苏省南京市玄武区玄武大道699-1号
法律状态 -

摘要

摘要 本发明公开了一种基于集成学习技术的高维度数据预测方法,首先对原始高维数据进行预处理,包括缺失值和异常值的处理、去除重复数据等;接着利用GBDT特征重要性方法进行特征筛选,并利用遗传算法进一步优化筛选结果,尽量在不改变原始特征的前提下对数据集进行降维;在此基础上,本发明利用Stacking集成学习的思想构建集成模型,对数据进行回归预测,并评估方法的效果。本发明充分考虑了高维度数据多特征、小样本的特点,具有鲁棒性强、精度高、泛化能力强的特点,可以充分挖出出原始数据中的潜在规律,提供更加精细化的决策支持。