一种自动化网络数据采集方法
基本信息
申请号 | CN202210003707.2 | 申请日 | - |
公开(公告)号 | CN114329145A | 公开(公告)日 | 2022-04-12 |
申请公布号 | CN114329145A | 申请公布日 | 2022-04-12 |
分类号 | G06F16/951(2019.01)I;G06F16/955(2019.01)I;G06F16/27(2019.01)I;G06F16/2455(2019.01)I;G06F16/23(2019.01)I;G06F9/48(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 武亚洲;王治胜;童曦 | 申请(专利权)人 | 陕西数图行信息科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 710000陕西省西安市高新区丈八一路10号中铁西安中心1栋29层 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及网络数据技术领域,公开了一种自动化网络数据采集方法,所述采集方法包括:S1、对网络数据进行采集,得到原始网页;S2、对原始网页进行数据提取,得到解析后网页;S3、对解析后网页进行去空、去错、去重复、归一化及残缺值补充处理,得到处理后数据;S4、对处理后数据进行存储;S5、对存储的数据进行处理。本发明的自动化网络数据采集方法能够对第三平台公开的数据进行24小时不间断采集,支持分钟级别第三方平台数据检索同步,多个站点增量部分数据更新能做到秒级更新,无需人工监管,同时通过关键词检索配置,可实现自动化检索的同时过滤掉无关内容,提高精准度,实现无监督、无遗漏、快速可迭代式数据采集。 |
