一种自动获取xpath生成爬虫脚本的方法及系统专利查询专利号|摘要-满商公司网

请输入想查询的关键字

查询

退出

头部vip图标

浏览历史

清除

首页/ 北京大数元科技发展有限公司/ 专利详情

一种自动获取xpath生成爬虫脚本的方法及系统

基本信息

申请号	CN201711034452.1	申请日	-
公开（公告）号	CN107943838A	公开（公告）日	2018-04-20
申请公布号	CN107943838A	申请公布日	2018-04-20
分类号	G06F17/30;G06F8/30	分类	计算；推算；计数;
发明人	姬永杰;陈国强;王长勇;任建新	申请（专利权）人	北京大数元科技发展有限公司
代理机构	北京天悦专利代理事务所（普通合伙）	代理人	北京大数元科技发展有限公司
地址	100094 北京市海淀区西北旺东路10号院新兴产业联盟大厦4层4-17室
法律状态	-

摘要

摘要

本发明公开了一种自动获取xpath生成爬虫脚本的方法及系统，所述方法包括以下步骤：(1)通过url地址打开网页，遍历网页中所有的标签；(2)取出每个标签对应的xpath路径；(3)按xpath路径相同划分为一组；然后，统计分组后标签个数；(4)取出每组中的一个标签，打开该链接网页；(5)对于步骤4中每个被打开的网页，统计网页中的标签个数以及文字个数；(6)取出文字个数最多且标签个数最少的一组，记录其对应的xpath路径；(7)基于Scrapy框架，根据对应的xpath路径生成爬虫脚本。该方法能够基于Scrapy框架对政府网站公开信息进行爬取，可以自动解析出网页中所需内容的xpath路径，提升爬虫管理的自动化水平。