一种网页去噪的方法
基本信息
申请号 | CN202011229773.9 | 申请日 | - |
公开(公告)号 | CN112347353A | 公开(公告)日 | 2021-02-09 |
申请公布号 | CN112347353A | 申请公布日 | 2021-02-09 |
分类号 | G06F16/9535(2019.01)I;G06F16/35(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 邹季英;吴涛;袁仁慧 | 申请(专利权)人 | 《中国学术期刊(光盘版)》电子杂志社有限公司 |
代理机构 | 北京天奇智新知识产权代理有限公司 | 代理人 | 王泽云 |
地址 | 100084北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种网页去噪的方法,包括:导入网页,获取网页的DOM树结构信息、视觉信息和文本内容;判断节点类型,计算节点纯度;拆分DOM树提取初级视觉块,对初级视觉块集合进行邻域分析与融合,形成视觉块集合,校验视觉块集合,校验后输出提取视觉块;抽取视觉块特征;对视觉块进行分类,将视觉块的分类标签以节点属性的方式写入视觉块所包含的DOM子树的所有节点,直至叶子节点,检查、修改标注文件并输出;从节点的类别标签推导出视觉块的类别标签,使用视觉块特征和视觉块类别标签训练分类器,评估网页去噪效果;采用分类器对视觉块分类,将分类结果转化为节点的分类结果,根据节点的分类结果剔除网页中的无效内容,输出网页去噪结果并保存。 |
