信息的分布式采集方法及系统
基本信息
申请号 | CN200710120326.8 | 申请日 | - |
公开(公告)号 | CN101370024B | 公开(公告)日 | 2012-10-31 |
申请公布号 | CN101370024B | 申请公布日 | 2012-10-31 |
分类号 | H04L29/08(2006.01)I;G06F17/30(2006.01)I;G06F17/40(2006.01)I | 分类 | 电通信技术; |
发明人 | 孙亚夫;张高峰;吴运超 | 申请(专利权)人 | 北京灵图软件技术有限公司 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 北京灵图软件技术有限公司 |
地址 | 100094 北京市海淀区东北旺西路8号中关村软件园5号楼汉王大厦2层 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种信息的分布式采集方法及系统,解决太长的采集周期无法保证信息采集的及时性和有效性的问题,提高信息采集和更新的速度,降低采集成本。所述方法包括:通过配置采集参数,编制采集任务;根据所述采集参数,将任务分解为多个任务包;服务端调度分布式客户端,将采集参数和任务包分发给请求的客户端;客户端执行采集任务,根据采集参数获取网页并采集需要的信息。所述方法利用了网络上分布的空间信息量,将信息抽取技术和分布式技术结合起来,提供一种高效稳定的信息采集方案和任务调度方案,可以充分利用网络资源和计算资源,有效地提高信息采集的效率和数据更新的速度,从而保证采集信息的有效性。 |
