一种网页去噪的方法

基本信息

申请号 CN202011229773.9 申请日 -
公开(公告)号 CN112347353A 公开(公告)日 2021-02-09
申请公布号 CN112347353A 申请公布日 2021-02-09
分类号 G06F16/9535(2019.01)I;G06F16/35(2019.01)I 分类 计算;推算;计数;
发明人 邹季英;吴涛;袁仁慧 申请(专利权)人 《中国学术期刊(光盘版)》电子杂志社有限公司
代理机构 北京天奇智新知识产权代理有限公司 代理人 王泽云
地址 100084北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室
法律状态 -

摘要

摘要 本发明公开了一种网页去噪的方法,包括:导入网页,获取网页的DOM树结构信息、视觉信息和文本内容;判断节点类型,计算节点纯度;拆分DOM树提取初级视觉块,对初级视觉块集合进行邻域分析与融合,形成视觉块集合,校验视觉块集合,校验后输出提取视觉块;抽取视觉块特征;对视觉块进行分类,将视觉块的分类标签以节点属性的方式写入视觉块所包含的DOM子树的所有节点,直至叶子节点,检查、修改标注文件并输出;从节点的类别标签推导出视觉块的类别标签,使用视觉块特征和视觉块类别标签训练分类器,评估网页去噪效果;采用分类器对视觉块分类,将分类结果转化为节点的分类结果,根据节点的分类结果剔除网页中的无效内容,输出网页去噪结果并保存。