一种网页内容提取方法专利查询专利号|摘要-满商公司网

请输入想查询的关键字

查询

退出

头部vip图标

浏览历史

清除

首页/ 云孚科技（北京）有限公司/ 专利详情

一种网页内容提取方法

基本信息

申请号	CN201811479503.6	申请日	-
公开（公告）号	CN109635219A	公开（公告）日	2019-04-16
申请公布号	CN109635219A	申请公布日	2019-04-16
分类号	G06F16/958（2019.01）I; G06F16/951（2019.01）I	分类	计算；推算；计数;
发明人	贾显伏; 叶伟强	申请（专利权）人	云孚科技（北京）有限公司
代理机构	北京世誉鑫诚专利代理事务所（普通合伙）	代理人	孙国栋
地址	100085 北京市海淀区上地信息路2号（北京实创高科技发展总公司2-2号D栋1-8层）一层D100-0705室
法律状态	-

摘要

摘要	本发明公开的网页内容提取方法，涉及数据分析技术领域，通过过滤网页内容中标签为script及css的节点，生成基于DOM树的第一节点集合，从第一节点集合中提取标签包含文本的节点，生成基于DOM树的第二节点集合，对第二节点集合中的各个节点进行过滤，生成基于DOM树的第三节点集合，遍历第三节点集合中的各个节点，依据设定的计分公式，分别计算各个节点的得分并生成得分集合，从得分集合中获取分数最高的节点，从所述节点中提取文本，节省了大量人力成本、提高了效率及通用性，解决了现有技术存在的人力成本高、效率低及通用性不强的缺陷。