业务数据抓取方法和系统
基本信息
申请号 | CN201310325804.4 | 申请日 | - |
公开(公告)号 | CN103399908B | 公开(公告)日 | 2017-02-08 |
申请公布号 | CN103399908B | 申请公布日 | 2017-02-08 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 李正勇;曹东;李建涛 | 申请(专利权)人 | 北京北纬通信科技股份有限公司 |
代理机构 | 北京博雅睿泉专利代理事务所(特殊普通合伙) | 代理人 | 马佑平 |
地址 | 100166 北京市丰台区西四环南路19号九号楼247室 | ||
法律状态 | - |
摘要
摘要 | 本申请公开了业务数据抓取方法和系统,该方法为:配置抓取操作时所需要的规则数据;读取所述规则数据,根据该规则数据建立网页资源抓取任务,将抓取的网页资源按照配置规则分类进行存储;针对抓取到的所述网页资源建立数据解析任务,对抓取的所述网页资源通过解析HTML文档获取需要的资源URI,同时过滤数据不完整的资源;建立资源下载任务,对解析获取到的所述资源URI使用断点续传的方式下载,获得所述资源数据;根据采集到的所述资源数据的完整性进行存储或重新抓取,并在所述抓取操作无法正常结束时发送报告信息。本申请解决了数据采集时花费大量的资源而且不能通过配置相关的信息获取业务数据的问题。 |
