应用于网页中DOM树处理方法
基本信息
申请号 | CN202010436191.1 | 申请日 | - |
公开(公告)号 | CN111651694A | 公开(公告)日 | 2020-09-11 |
申请公布号 | CN111651694A | 申请公布日 | 2020-09-11 |
分类号 | G06F16/955(2019.01)I;G06F16/958(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 詹锦州;杜卫红;谢立欧 | 申请(专利权)人 | 深圳市比一比网络科技有限公司 |
代理机构 | 深圳市科吉华烽知识产权事务所(普通合伙) | 代理人 | 深圳市比一比网络科技有限公司 |
地址 | 518000广东省深圳市南山区科苑北路讯美科技大厦1栋3楼306室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种应用于网页中DOM树处理方法,包括以下步骤:步骤S10,获取目标网页所对应的DOM树,删除DOM树中无效信息;步骤S20,计算目标网页中子节点的文本密度和链接密度;步骤S30,根据文本密度和链接密度计算第一权重,判断第一权重是否大于第一预设阈值,若第一权重大于第一预设阈值,则确定对应的子节点为正文标签;步骤S40,在DOM树中根据正文标签确定标题和作者;步骤S50,在DOM树中对内容节点进行降噪处理;步骤S60,根据目标网页的网站域名保留DOM树模型。本发明,能够建立与目标网页匹配度高的DOM树,以便于用户在后续过程中的信息检索,适应不同类型的网站。 |
