一种基于网页爬取的爬虫技术专利查询专利号|摘要-满商公司网

一种基于网页爬取的爬虫技术

基本信息

申请号	CN201310040090.2	申请日	-
公开（公告）号	CN103970788A	公开（公告）日	2014-08-06
申请公布号	CN103970788A	申请公布日	2014-08-06
分类号	G06F17/30(2006.01)I	分类	计算；推算；计数;
发明人	尹科	申请（专利权）人	北京英富森软件股份有限公司
代理机构	-	代理人	-
地址	100190 北京市海淀区中关村东路66号一号楼世纪科贸大厦B座2509室
法律状态	-

摘要

本发明涉及技术领域，具体涉及一种基于网页爬取的爬虫技术，初始化URL链接地址后，包括：1)均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址；2)判断所述URL链接地址是否存在，是则停止爬取，否则，爬取所述URL链接地址放入完成队列；3)对放入所述完成队列的所述URL链接地址对应的网页进行提取；4)对所述提取的网页中的URL链接地址过滤，留取有效URL链接地址写入运行队列，返回步骤1)重复以上步骤。本发明基于用户设定的对象，根据用户创建的任务，从互联网爬取对应的资源、重写URL并进行存储，实现有针对性的对互联网信息进行采集；同时，能够实现多机并行爬取、多任务调度、断点续抓、分布式爬虫管理以及爬虫控制。