提取网页正文内容的方法和系统

基本信息

申请号 CN201210570193.5 申请日 -
公开(公告)号 CN103049536A 公开(公告)日 2013-04-17
申请公布号 CN103049536A 申请公布日 2013-04-17
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 王海山 申请(专利权)人 广州时代数据服务有限公司
代理机构 广州华进联合专利商标代理有限公司 代理人 王茹
地址 510630 广东省广州市天河区中山大道西路88号之1001房
法律状态 -

摘要

摘要 本发明提供一种提取网页正文内容的方法和系统,其方法包括步骤:获取html源文件,并将该html源文件转化为字符流;剔除所述字符流中的无效标签;将剩余的标签转化为标签树,并将该标签树转换成标签队列;对所述队列标签中的各标签进行处理获得有效标签集;将所述有效标签集转化成文本,返回为正文。本发明具有很高的通用性,覆盖面广,即使网页结果复杂,含有多种干扰信息,也能有效的提取网页的正文部分,针对性强,同时定制性开发少,可维护性强。