应用于网页中DOM树处理方法

基本信息

申请号 CN202010436191.1 申请日 -
公开(公告)号 CN111651694A 公开(公告)日 2020-09-11
申请公布号 CN111651694A 申请公布日 2020-09-11
分类号 G06F16/955(2019.01)I;G06F16/958(2019.01)I 分类 计算;推算;计数;
发明人 詹锦州;杜卫红;谢立欧 申请(专利权)人 深圳市比一比网络科技有限公司
代理机构 深圳市科吉华烽知识产权事务所(普通合伙) 代理人 深圳市比一比网络科技有限公司
地址 518000广东省深圳市南山区科苑北路讯美科技大厦1栋3楼306室
法律状态 -

摘要

摘要 本发明公开了一种应用于网页中DOM树处理方法,包括以下步骤:步骤S10,获取目标网页所对应的DOM树,删除DOM树中无效信息;步骤S20,计算目标网页中子节点的文本密度和链接密度;步骤S30,根据文本密度和链接密度计算第一权重,判断第一权重是否大于第一预设阈值,若第一权重大于第一预设阈值,则确定对应的子节点为正文标签;步骤S40,在DOM树中根据正文标签确定标题和作者;步骤S50,在DOM树中对内容节点进行降噪处理;步骤S60,根据目标网页的网站域名保留DOM树模型。本发明,能够建立与目标网页匹配度高的DOM树,以便于用户在后续过程中的信息检索,适应不同类型的网站。