一种网页信息提取方法、装置及终端

基本信息

申请号 CN201410483306.7 申请日 -
公开(公告)号 CN104268192B 公开(公告)日 2018-08-07
申请公布号 CN104268192B 申请公布日 2018-08-07
分类号 G06F17/30 分类 计算;推算;计数;
发明人 邝锐强 申请(专利权)人 广州猎豹网络科技有限公司
代理机构 广州三环专利商标代理有限公司 代理人 广州猎豹网络科技有限公司
地址 510623 广东省广州市天河区华夏路26号雅居乐中心第15层自编07、08A单元
法律状态 -

摘要

摘要 本发明实施例公开了一种网页信息提取方法,包括:解析网页信息并生成得到所述网页信息的标签树,所述标签树包括多个节点,所述标签树的各个节点分别对应于所述网页信息中的一个内容分块;获取预先建立的网页信息词库,所述网页信息词库包括多种类型的词语集合,所述词语集合中的各个词语分别对应一个权值;根据所述预先建立的网页信息词库,通过遍历所述网页信息的标签树获取所述网页信息的正文内容块;根据所述网页信息的正文内容块,对所述网页信息中的至少一个内容元素进行提取。本发明实施例还公开了网页信息提取装置及终端。采用本发明实施例,可以网页信息的提取速度。