一种抽取网页半结构化数据的方法
基本信息
申请号 | CN201810953361.6 | 申请日 | - |
公开(公告)号 | CN109657114A | 公开(公告)日 | 2019-04-19 |
申请公布号 | CN109657114A | 申请公布日 | 2019-04-19 |
分类号 | G06F16/951(2019.01)I; G06F16/9535(2019.01)I; G06F16/81(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 张露晨; 唐积强; 马秀娟; 徐小磊; 苏沐冉; 李传海; 吴震; 王石 | 申请(专利权)人 | 中科国力(镇江)智能技术有限公司 |
代理机构 | 南京知识律师事务所 | 代理人 | 国家计算机网络与信息安全管理中心; 中科国力(镇江)智能技术有限公司 |
地址 | 100020 北京市朝阳区裕民路甲3号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种抽取网页半结构化数据的方法,包括:从web站点爬取页面;人工定制化爬取目标页的url;配置一类网站的关键词词根;对类似的网页进行分析,根据case1,case2,case3进行分类判别,并对复杂的嵌套情况加以处理,抽取出网页模板。通过指定的url选出同类(栏目)url,同栏目url对应的html文本结构相似,遍历所有html节点,通过节点间的联系或节点本身,发现对应关键词的模板。从一个网站的所有子url中,找出和人工给定的相似的url。把目标格式分为case1,case2,case3,三种情况,对每一种情况分别进行处理,生成网页模板。 |
