一种页面数据的学习和自动采集方法
基本信息
申请号 | CN202011574056.X | 申请日 | - |
公开(公告)号 | CN112541107A | 公开(公告)日 | 2021-03-23 |
申请公布号 | CN112541107A | 申请公布日 | 2021-03-23 |
分类号 | G06F8/41(2018.01)I;G06F16/22(2019.01)I;G06F16/951(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 李晓捷;张卫民 | 申请(专利权)人 | 天津浪淘科技股份有限公司 |
代理机构 | 北京沁优知识产权代理有限公司 | 代理人 | 李蓓蕾 |
地址 | 300000天津市滨海新区滨海高新区华苑产业区桂苑路13号4号楼1门801单元 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种页面数据的学习方法,包括将页面代码进行解析出页面组成机构,针对页面组成结构生成相应的采集流程并进行复核;一种页面数据的自动采集方法,包括针对待采集页面进行解析相应的采集流程并复核后找出最匹配的采集流程后按采集要求进行采集。本发明能够页面数据的学习方法,实现了针对不同页面进行自动学习得到不同的采集流程,使采集流程更智能;通过页面数据的自动采集方法,实现了对不同页面自动选取相匹配的采集流程,降低了采集错误率,避免了需要人工辅助点击进行页面采集,节约了采集成本;通过对两个方法的复核,实现了对采集流程的学习更精准以及对采集流程与页面更匹配,使得采集流程更准确,大大的降低了错误率。 |
