一种基于主题特征和内容语义的新型网页去重方法

基本信息

申请号 CN202110073759.2 申请日 -
公开(公告)号 CN112765940A 公开(公告)日 2021-05-07
申请公布号 CN112765940A 申请公布日 2021-05-07
分类号 G06K9/62(2006.01)I;G06F40/30(2020.01)I;G06F40/14(2020.01)I;G06F16/35(2019.01)I 分类 计算;推算;计数;
发明人 朱海峰;颜小君;赵立为 申请(专利权)人 南京万得资讯科技有限公司
代理机构 上海申汇专利代理有限公司 代理人 徐俊
地址 210019江苏省南京市建邺区泰山路199号万得大厦
法律状态 -

摘要

摘要 本发明提供了一种基于主题特征和内容语义的新型网页去重方法,其特征在于,包括:利用HTML网页标签分类模型自动抽取目标网页的网页正文;基于网页正文进行主题计算和限定;网页相似度计算。本发明提供的方法能够一定程度地解决相关技术中存在的问题,应用于互联网中不同来源、不同风格、不同内容的全网网页,并在执行效率、计算准确性等方面显著地优于现有的技术方法。