一种页面资源结构化的方法和装置

基本信息

申请号 CN201510100103.X 申请日 -
公开(公告)号 CN105989178A 公开(公告)日 2016-10-05
申请公布号 CN105989178A 申请公布日 2016-10-05
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 施宏俊;周建宝;胡大卫;贾立群;段学俭;周怡;刘懿;吴弃疾;翁志轩;何勇;杨文华;谢冬华;朱丹瑾;陈力勇;易英华;张少杰;程艳 申请(专利权)人 上海世纪出版股份有限公司
代理机构 - 代理人 -
地址 200235 上海市钦州南路81号
法律状态 -

摘要

摘要 本发明提供了一种页面资源结构化的方法和装置,其包括创建网页内容抓取模块,获取网页对应的html文件;定义Schema文件用以规范结构化后生成的XML结果文档;建立标签映射文件,根据html标签,文字属性,段落属性建立与Schema所定义标签的映射。根据映射关系进行内容识别并生成对应的结构化文档,从而完成页面资源的结构化。传统的网页数据采集一般只涉及到网页元数据的采集,相对于传统的处理方法,该方法及装置能够快速、智能、准确地完成网页元数据及有效内容的采集,且将所采集的内容片段化,结构化,所涉及的内容相比传统方法更加全面,范围更广。