一种网页内容提取方法

基本信息

申请号 CN201811479503.6 申请日 -
公开(公告)号 CN109635219A 公开(公告)日 2019-04-16
申请公布号 CN109635219A 申请公布日 2019-04-16
分类号 G06F16/958(2019.01)I; G06F16/951(2019.01)I 分类 计算;推算;计数;
发明人 贾显伏; 叶伟强 申请(专利权)人 云孚科技(北京)有限公司
代理机构 北京世誉鑫诚专利代理事务所(普通合伙) 代理人 孙国栋
地址 100085 北京市海淀区上地信息路2号(北京实创高科技发展总公司2-2号D栋1-8层)一层D100-0705室
法律状态 -

摘要

摘要 本发明公开的网页内容提取方法,涉及数据分析技术领域,通过过滤网页内容中标签为script及css的节点,生成基于DOM树的第一节点集合,从第一节点集合中提取标签包含文本的节点,生成基于DOM树的第二节点集合,对第二节点集合中的各个节点进行过滤,生成基于DOM树的第三节点集合,遍历第三节点集合中的各个节点,依据设定的计分公式,分别计算各个节点的得分并生成得分集合,从得分集合中获取分数最高的节点,从所述节点中提取文本,节省了大量人力成本、提高了效率及通用性,解决了现有技术存在的人力成本高、效率低及通用性不强的缺陷。