提取网页正文内容的方法和系统
基本信息
申请号 | CN201210570193.5 | 申请日 | - |
公开(公告)号 | CN103049536A | 公开(公告)日 | 2013-04-17 |
申请公布号 | CN103049536A | 申请公布日 | 2013-04-17 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 王海山 | 申请(专利权)人 | 广州时代数据服务有限公司 |
代理机构 | 广州华进联合专利商标代理有限公司 | 代理人 | 王茹 |
地址 | 510630 广东省广州市天河区中山大道西路88号之1001房 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种提取网页正文内容的方法和系统,其方法包括步骤:获取html源文件,并将该html源文件转化为字符流;剔除所述字符流中的无效标签;将剩余的标签转化为标签树,并将该标签树转换成标签队列;对所述队列标签中的各标签进行处理获得有效标签集;将所述有效标签集转化成文本,返回为正文。本发明具有很高的通用性,覆盖面广,即使网页结果复杂,含有多种干扰信息,也能有效的提取网页的正文部分,针对性强,同时定制性开发少,可维护性强。 |
