一种增量更新与爬取技术

基本信息

申请号 CN201310040088.5 申请日 -
公开(公告)号 CN103970787A 公开(公告)日 2014-08-06
申请公布号 CN103970787A 申请公布日 2014-08-06
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 尹科 申请(专利权)人 北京英富森软件股份有限公司
代理机构 - 代理人 -
地址 100190 北京市海淀区中关村东路66号一号楼世纪科贸大厦B座2509室
法律状态 -

摘要

摘要 本发明涉及一种增量更新与爬取技术,包括:判断待爬取网页内容的UR是否为静态页面的链接地址;当待爬取网页内容的URL为静态页面的链接地址时,判断所述URL是否爬取过,是则用所述URL替换已存储的URL;否则,根据爬取日期创建年/月/日/URL链接地址的文件夹,将待爬取网页的内容存储到所述文件夹中。本发明通过每次获取待爬取网页的URL时,判断所述URL是属于静态页面的还是动态页面的链接地址。如果是静态页面的,则判断所述URL是否已经爬取过,如已经爬取过则不进行爬取,直接将已经爬取过的URL替换成现有的链接地址存储,实现了静态页面的增量更新存储的要求,从而减少爬虫系统更新页面的工作量,提升了页面的新鲜度。