一种蜘蛛调度中心采集动态调整算法

基本信息

申请号 CN201210414966.0 申请日 -
公开(公告)号 CN103778165A 公开(公告)日 2014-05-07
申请公布号 CN103778165A 申请公布日 2014-05-07
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 李旭日 申请(专利权)人 广州市邦富软件有限公司
代理机构 - 代理人 -
地址 510635 广东省广州市天河区天河软件园高塘新建区广州互联网产业园1号楼第五层A501-A510房
法律状态 -

摘要

摘要 本发明公开了一种蜘蛛调度中心采集动态调整算法,该算法主要从两个方面入手:一是在蜘蛛的运行过程中自动的根据采集到的数据对任务的采集间隔进行动态调整,以达到运行时间越长,性能越优;二是通过分析蜘蛛的采集日志,挖掘数据量采集最大的时间段,对该时间段在任务配置中进行重点照顾;任务调度中有两个重要参数:采集间隔、重点更新时间段;无需人工干预,根据不同网站的更新频率以及更新时间段自动适应。达到采集最大化效率的目的。