一种抽取网页半结构化数据的方法专利查询专利号|摘要-满商公司网

请输入想查询的关键字

查询

退出

头部vip图标

浏览历史

清除

首页/ 中科国力（镇江）智能技术有限公司/ 专利详情

一种抽取网页半结构化数据的方法

基本信息

申请号	CN201810953361.6	申请日	-
公开（公告）号	CN109657114A	公开（公告）日	2019-04-19
申请公布号	CN109657114A	申请公布日	2019-04-19
分类号	G06F16/951（2019.01）I; G06F16/9535（2019.01）I; G06F16/81（2019.01）I	分类	计算；推算；计数;
发明人	张露晨; 唐积强; 马秀娟; 徐小磊; 苏沐冉; 李传海; 吴震; 王石	申请（专利权）人	中科国力（镇江）智能技术有限公司
代理机构	南京知识律师事务所	代理人	国家计算机网络与信息安全管理中心; 中科国力（镇江）智能技术有限公司
地址	100020 北京市朝阳区裕民路甲3号
法律状态	-

摘要

摘要	本发明公开了一种抽取网页半结构化数据的方法，包括：从web站点爬取页面；人工定制化爬取目标页的url；配置一类网站的关键词词根；对类似的网页进行分析，根据case1，case2，case3进行分类判别，并对复杂的嵌套情况加以处理，抽取出网页模板。通过指定的url选出同类(栏目)url，同栏目url对应的html文本结构相似，遍历所有html节点，通过节点间的联系或节点本身，发现对应关键词的模板。从一个网站的所有子url中，找出和人工给定的相似的url。把目标格式分为case1，case2，case3，三种情况，对每一种情况分别进行处理，生成网页模板。