一种自动化网络数据采集方法

基本信息

申请号 CN202210003707.2 申请日 -
公开(公告)号 CN114329145A 公开(公告)日 2022-04-12
申请公布号 CN114329145A 申请公布日 2022-04-12
分类号 G06F16/951(2019.01)I;G06F16/955(2019.01)I;G06F16/27(2019.01)I;G06F16/2455(2019.01)I;G06F16/23(2019.01)I;G06F9/48(2006.01)I 分类 计算;推算;计数;
发明人 武亚洲;王治胜;童曦 申请(专利权)人 陕西数图行信息科技有限公司
代理机构 - 代理人 -
地址 710000陕西省西安市高新区丈八一路10号中铁西安中心1栋29层
法律状态 -

摘要

摘要 本发明涉及网络数据技术领域,公开了一种自动化网络数据采集方法,所述采集方法包括:S1、对网络数据进行采集,得到原始网页;S2、对原始网页进行数据提取,得到解析后网页;S3、对解析后网页进行去空、去错、去重复、归一化及残缺值补充处理,得到处理后数据;S4、对处理后数据进行存储;S5、对存储的数据进行处理。本发明的自动化网络数据采集方法能够对第三平台公开的数据进行24小时不间断采集,支持分钟级别第三方平台数据检索同步,多个站点增量部分数据更新能做到秒级更新,无需人工监管,同时通过关键词检索配置,可实现自动化检索的同时过滤掉无关内容,提高精准度,实现无监督、无遗漏、快速可迭代式数据采集。