一种基于网页爬取的爬虫技术
基本信息
申请号 | CN201310040090.2 | 申请日 | - |
公开(公告)号 | CN103970788A | 公开(公告)日 | 2014-08-06 |
申请公布号 | CN103970788A | 申请公布日 | 2014-08-06 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 尹科 | 申请(专利权)人 | 北京英富森软件股份有限公司 |
代理机构 | - | 代理人 | - |
地址 | 100190 北京市海淀区中关村东路66号一号楼世纪科贸大厦B座2509室 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及技术领域,具体涉及一种基于网页爬取的爬虫技术,初始化URL链接地址后,包括:1)均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址;2)判断所述URL链接地址是否存在,是则停止爬取,否则,爬取所述URL链接地址放入完成队列;3)对放入所述完成队列的所述URL链接地址对应的网页进行提取;4)对所述提取的网页中的URL链接地址过滤,留取有效URL链接地址写入运行队列,返回步骤1)重复以上步骤。本发明基于用户设定的对象,根据用户创建的任务,从互联网爬取对应的资源、重写URL并进行存储,实现有针对性的对互联网信息进行采集;同时,能够实现多机并行爬取、多任务调度、断点续抓、分布式爬虫管理以及爬虫控制。 |
