一种页面资源结构化的方法和装置专利查询专利号|摘要-满商公司网

请输入想查询的关键字

查询

退出

头部vip图标

浏览历史

清除

首页/ 上海世纪出版股份有限公司/ 专利详情

一种页面资源结构化的方法和装置

基本信息

申请号	CN201510100103.X	申请日	-
公开（公告）号	CN105989178A	公开（公告）日	2016-10-05
申请公布号	CN105989178A	申请公布日	2016-10-05
分类号	G06F17/30(2006.01)I	分类	计算；推算；计数;
发明人	施宏俊;周建宝;胡大卫;贾立群;段学俭;周怡;刘懿;吴弃疾;翁志轩;何勇;杨文华;谢冬华;朱丹瑾;陈力勇;易英华;张少杰;程艳	申请（专利权）人	上海世纪出版股份有限公司
代理机构	-	代理人	-
地址	200235 上海市钦州南路81号
法律状态	-

摘要

摘要	本发明提供了一种页面资源结构化的方法和装置，其包括创建网页内容抓取模块，获取网页对应的html文件；定义Schema文件用以规范结构化后生成的XML结果文档；建立标签映射文件，根据html标签，文字属性，段落属性建立与Schema所定义标签的映射。根据映射关系进行内容识别并生成对应的结构化文档，从而完成页面资源的结构化。传统的网页数据采集一般只涉及到网页元数据的采集，相对于传统的处理方法，该方法及装置能够快速、智能、准确地完成网页元数据及有效内容的采集，且将所采集的内容片段化，结构化，所涉及的内容相比传统方法更加全面，范围更广。