提取网页正文内容的方法和系统专利查询专利号|摘要-满商公司网

请输入想查询的关键字

查询

退出

浏览历史

清除

首页/ 广州时代数据服务有限公司/ 专利详情

提取网页正文内容的方法和系统

基本信息

摘要

摘要	本发明提供一种提取网页正文内容的方法和系统，其方法包括步骤：获取html源文件，并将该html源文件转化为字符流；剔除所述字符流中的无效标签；将剩余的标签转化为标签树，并将该标签树转换成标签队列；对所述队列标签中的各标签进行处理获得有效标签集；将所述有效标签集转化成文本，返回为正文。本发明具有很高的通用性，覆盖面广，即使网页结果复杂，含有多种干扰信息，也能有效的提取网页的正文部分，针对性强，同时定制性开发少，可维护性强。