基于结构相似网页集的信息抽取方法

基本信息

申请号 CN201610204047.9 申请日 -
公开(公告)号 CN105824966A 公开(公告)日 2016-08-03
申请公布号 CN105824966A 申请公布日 2016-08-03
分类号 G06F17/30(2006.01)I;G06F17/22(2006.01)I 分类 计算;推算;计数;
发明人 任龙;王儒敬;王伟;汪六三 申请(专利权)人 安徽中科物联科技有限公司
代理机构 无锡市大为专利商标事务所(普通合伙) 代理人 无锡中科富农物联科技有限公司;安徽中科物联科技有限公司;江苏物联网研究发展中心
地址 214135 江苏省无锡市新区菱湖大道200号江苏物联网研究与发展中心C座3楼
法律状态 -

摘要

摘要 本发明涉及了一种基于结构相似网页集的信息抽取方法,分为去噪阶段,匹配阶段以及信息抽取阶段。去噪阶段负责将相似网页集中的网页规范,使得相似网页集中的网页完全符合W3C的XHTML标准。在进入匹配阶段后,从网页集中随机选择两个网页,比较两个网页DOM树中不匹配的部分;会出现三种不匹配状态,分别对三种不匹配状态加以处理,生成一个包装器。在信息抽取阶段,用包装器抽取相似网页集中的数据,生成一个XML文件,保存着从相似网页集中得到的数据。本发明的优点是:基于相似网页的信息抽取可以根据相似网页结构相似性的特点自动生成包装器,不需要人工参与以及先验知识的指导,适用于数据比较密集型的网页,能够很好地从相似网页集中生成数据。