网页信息提取的方法及装置
基本信息
申请号 | CN201810164501.1 | 申请日 | - |
公开(公告)号 | CN108334480A | 公开(公告)日 | 2018-07-27 |
申请公布号 | CN108334480A | 申请公布日 | 2018-07-27 |
分类号 | G06F17/22 | 分类 | 计算;推算;计数; |
发明人 | 周柳阳;许炜;蒋林林 | 申请(专利权)人 | 智言科技(深圳)有限公司 |
代理机构 | 深圳市中科创为专利代理有限公司 | 代理人 | 智言科技(深圳)有限公司 |
地址 | 518000 广东省深圳市宝安区新安街道创业二路139号新一代信息技术产业园C座318 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了网页信息提取的方法及装置,该方法包括:步骤S10,获取关于相同网页但数据不同的两个页面;步骤S20,将两个页面的内容进行差异比较,并对差异处进行标记;以生成网页模板;步骤S30,将网页模板与其他页面进行比对,基于差异部分,提取信息,并对提取的信息进行标记命名。本发明通过页面差异比较算法逆向生成网页模板,通过网页模板与待提取的页面进行比对提取信息,无须人工干预,从而提高了提取的智能化以及提取效率。 |
