基于XPath的网页元素识别方法

基本信息

申请号 CN202010145583.2 申请日 -
公开(公告)号 CN111368241A 公开(公告)日 2020-07-03
申请公布号 CN111368241A 申请公布日 2020-07-03
分类号 G06F16/958;G06F16/951 分类 -
发明人 龚燕玲;潘宇;汪玉林 申请(专利权)人 苏州数字力量教育科技有限公司
代理机构 北京和联顺知识产权代理有限公司 代理人 苏州数字力量教育科技有限公司
地址 215000 江苏省苏州市工业园区时代广场S2区域2栋2层2020
法律状态 -

摘要

摘要 本发明公开了一种基于XPath的网页元素识别方法,网页元素识别方法分为三个部分,第一部分最底层元素属性的XPath集合T1,第二部分寻找能找到目标元素的最具有唯一性的层级,并生成这一层级属性的XPath集合T2,第三部分就是将T1和T2里面的XPath结合起来。本发明提供了全新的XPath生成方法,这个方法可以缩小目标元素的范围,增加找到元素的成功率和准确率。同时,也增加了网页测试,流程自动化,数据抓取等作业中的鲁棒性。