信息的分布式采集方法及系统

基本信息

申请号 CN200710120326.8 申请日 -
公开(公告)号 CN101370024B 公开(公告)日 2012-10-31
申请公布号 CN101370024B 申请公布日 2012-10-31
分类号 H04L29/08(2006.01)I;G06F17/30(2006.01)I;G06F17/40(2006.01)I 分类 电通信技术;
发明人 孙亚夫;张高峰;吴运超 申请(专利权)人 北京灵图软件技术有限公司
代理机构 北京集佳知识产权代理有限公司 代理人 北京灵图软件技术有限公司
地址 100094 北京市海淀区东北旺西路8号中关村软件园5号楼汉王大厦2层
法律状态 -

摘要

摘要 本发明公开了一种信息的分布式采集方法及系统,解决太长的采集周期无法保证信息采集的及时性和有效性的问题,提高信息采集和更新的速度,降低采集成本。所述方法包括:通过配置采集参数,编制采集任务;根据所述采集参数,将任务分解为多个任务包;服务端调度分布式客户端,将采集参数和任务包分发给请求的客户端;客户端执行采集任务,根据采集参数获取网页并采集需要的信息。所述方法利用了网络上分布的空间信息量,将信息抽取技术和分布式技术结合起来,提供一种高效稳定的信息采集方案和任务调度方案,可以充分利用网络资源和计算资源,有效地提高信息采集的效率和数据更新的速度,从而保证采集信息的有效性。