一种基于互联网定向站点网页数据采集的方法及装置

基本信息

申请号 CN200910217505.2 申请日 -
公开(公告)号 CN102117275B 公开(公告)日 2012-11-07
申请公布号 CN102117275B 申请公布日 2012-11-07
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 吴新丽;杨建武;蓝康泰;尹小刚 申请(专利权)人 北京方正电子政务信息科技有限公司
代理机构 北京同达信恒知识产权代理有限公司 代理人 北大方正集团有限公司;北京大学;北京方正电子政务信息科技有限公司;北京北大方正电子有限公司
地址 100871 北京市海淀区成府路298号方正大厦9层
法律状态 -

摘要

摘要 为了解决现有技术文件采集系统无法保证对采集站点及时、有效的进行数据采集的问题,本发明公开了一种基于互联网定向站点网页数据采集的方法及装置,该方法包括:根据待采集URL的优先级值,将待采集URL加入到具有对应优先级的URL队列中,根据各URL队列中的URL数量、URL队列优先级值和权值因子确定各URL队列权值,权值因子为用于刷新和获取内容页链接的列表页刷新后,列表页中新的URL链接数量,从权值最高的URL队列中获取URL,计算得到URL队列权值,进而对权值最高的待访问URL队列中的URL进行访问,并根据访问的URL采集网页数据,进而实现及时、有效的进行数据采集。