一种页面资源结构化的方法和装置
基本信息
申请号 | CN201510100103.X | 申请日 | - |
公开(公告)号 | CN105989178A | 公开(公告)日 | 2016-10-05 |
申请公布号 | CN105989178A | 申请公布日 | 2016-10-05 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 施宏俊;周建宝;胡大卫;贾立群;段学俭;周怡;刘懿;吴弃疾;翁志轩;何勇;杨文华;谢冬华;朱丹瑾;陈力勇;易英华;张少杰;程艳 | 申请(专利权)人 | 上海世纪出版股份有限公司 |
代理机构 | - | 代理人 | - |
地址 | 200235 上海市钦州南路81号 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种页面资源结构化的方法和装置,其包括创建网页内容抓取模块,获取网页对应的html文件;定义Schema文件用以规范结构化后生成的XML结果文档;建立标签映射文件,根据html标签,文字属性,段落属性建立与Schema所定义标签的映射。根据映射关系进行内容识别并生成对应的结构化文档,从而完成页面资源的结构化。传统的网页数据采集一般只涉及到网页元数据的采集,相对于传统的处理方法,该方法及装置能够快速、智能、准确地完成网页元数据及有效内容的采集,且将所采集的内容片段化,结构化,所涉及的内容相比传统方法更加全面,范围更广。 |
