基于XPath的网页元素识别方法
基本信息
申请号 | CN202010145583.2 | 申请日 | - |
公开(公告)号 | CN111368241A | 公开(公告)日 | 2020-07-03 |
申请公布号 | CN111368241A | 申请公布日 | 2020-07-03 |
分类号 | G06F16/958;G06F16/951 | 分类 | - |
发明人 | 龚燕玲;潘宇;汪玉林 | 申请(专利权)人 | 苏州数字力量教育科技有限公司 |
代理机构 | 北京和联顺知识产权代理有限公司 | 代理人 | 苏州数字力量教育科技有限公司 |
地址 | 215000 江苏省苏州市工业园区时代广场S2区域2栋2层2020 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于XPath的网页元素识别方法,网页元素识别方法分为三个部分,第一部分最底层元素属性的XPath集合T1,第二部分寻找能找到目标元素的最具有唯一性的层级,并生成这一层级属性的XPath集合T2,第三部分就是将T1和T2里面的XPath结合起来。本发明提供了全新的XPath生成方法,这个方法可以缩小目标元素的范围,增加找到元素的成功率和准确率。同时,也增加了网页测试,流程自动化,数据抓取等作业中的鲁棒性。 |
