一种基于互联网金融大数据处理方法

基本信息

申请号 CN201910071436.2 申请日 -
公开(公告)号 CN109948022A 公开(公告)日 2019-06-28
申请公布号 CN109948022A 申请公布日 2019-06-28
分类号 G06F16/951(2019.01)I; G06F16/958(2019.01)I; G06Q40/00(2012.01)I 分类 计算;推算;计数;
发明人 刘海峰 申请(专利权)人 华存数据信息技术有限公司
代理机构 北京华仲龙腾专利代理事务所(普通合伙) 代理人 华存数据信息技术有限公司
地址 200127 上海市浦东新区中国(上海)自由贸易试验区郭守敬路351号2号楼601AE-15室
法律状态 -

摘要

摘要 本发明涉及互联网技术领域,尤其为一种基于互联网金融大数据处理方法,包括以下步骤:S1:分三大步骤:大数据的采集、大数据的处理、大数据的存储,整体系统包含有以下几个模块:1、从Internet上抓取网页内容,并抽取出需要的属性内容的Web爬虫模块;2、对爬虫抓取的内容进行处理的数据处理模块,3、为爬虫提供需要抓取数据网站的URL的爬虫URL队列模块,4、包含需要抓取数据网站的URL信息、爬虫从网页中抽取来的数据以及经过数据处理之后的数据的数据模块,本发明对数据采集链接过滤的方法复杂度较低,能更快的进行数据处理,数据处理过程中的整合步骤使得匹配效率得到了很大的提升,同时准确度也得到了保障。