网页信息提取的方法及装置

基本信息

申请号 CN201810164501.1 申请日 -
公开(公告)号 CN108334480A 公开(公告)日 2018-07-27
申请公布号 CN108334480A 申请公布日 2018-07-27
分类号 G06F17/22 分类 计算;推算;计数;
发明人 周柳阳;许炜;蒋林林 申请(专利权)人 智言科技(深圳)有限公司
代理机构 深圳市中科创为专利代理有限公司 代理人 智言科技(深圳)有限公司
地址 518000 广东省深圳市宝安区新安街道创业二路139号新一代信息技术产业园C座318
法律状态 -

摘要

摘要 本发明公开了网页信息提取的方法及装置,该方法包括:步骤S10,获取关于相同网页但数据不同的两个页面;步骤S20,将两个页面的内容进行差异比较,并对差异处进行标记;以生成网页模板;步骤S30,将网页模板与其他页面进行比对,基于差异部分,提取信息,并对提取的信息进行标记命名。本发明通过页面差异比较算法逆向生成网页模板,通过网页模板与待提取的页面进行比对提取信息,无须人工干预,从而提高了提取的智能化以及提取效率。