一种基于互联网定向站点网页数据采集的方法及装置
基本信息
申请号 | CN200910217505.2 | 申请日 | - |
公开(公告)号 | CN102117275B | 公开(公告)日 | 2012-11-07 |
申请公布号 | CN102117275B | 申请公布日 | 2012-11-07 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 吴新丽;杨建武;蓝康泰;尹小刚 | 申请(专利权)人 | 北京方正电子政务信息科技有限公司 |
代理机构 | 北京同达信恒知识产权代理有限公司 | 代理人 | 北大方正集团有限公司;北京大学;北京方正电子政务信息科技有限公司;北京北大方正电子有限公司 |
地址 | 100871 北京市海淀区成府路298号方正大厦9层 | ||
法律状态 | - |
摘要
摘要 | 为了解决现有技术文件采集系统无法保证对采集站点及时、有效的进行数据采集的问题,本发明公开了一种基于互联网定向站点网页数据采集的方法及装置,该方法包括:根据待采集URL的优先级值,将待采集URL加入到具有对应优先级的URL队列中,根据各URL队列中的URL数量、URL队列优先级值和权值因子确定各URL队列权值,权值因子为用于刷新和获取内容页链接的列表页刷新后,列表页中新的URL链接数量,从权值最高的URL队列中获取URL,计算得到URL队列权值,进而对权值最高的待访问URL队列中的URL进行访问,并根据访问的URL采集网页数据,进而实现及时、有效的进行数据采集。 |
