一种基于网页爬取的爬虫技术

基本信息

申请号 CN201310040090.2 申请日 -
公开(公告)号 CN103970788A 公开(公告)日 2014-08-06
申请公布号 CN103970788A 申请公布日 2014-08-06
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 尹科 申请(专利权)人 北京英富森软件股份有限公司
代理机构 - 代理人 -
地址 100190 北京市海淀区中关村东路66号一号楼世纪科贸大厦B座2509室
法律状态 -

摘要

摘要 本发明涉及技术领域,具体涉及一种基于网页爬取的爬虫技术,初始化URL链接地址后,包括:1)均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址;2)判断所述URL链接地址是否存在,是则停止爬取,否则,爬取所述URL链接地址放入完成队列;3)对放入所述完成队列的所述URL链接地址对应的网页进行提取;4)对所述提取的网页中的URL链接地址过滤,留取有效URL链接地址写入运行队列,返回步骤1)重复以上步骤。本发明基于用户设定的对象,根据用户创建的任务,从互联网爬取对应的资源、重写URL并进行存储,实现有针对性的对互联网信息进行采集;同时,能够实现多机并行爬取、多任务调度、断点续抓、分布式爬虫管理以及爬虫控制。