一种基于主题特征和内容语义的新型网页去重方法
基本信息
申请号 | CN202110073759.2 | 申请日 | - |
公开(公告)号 | CN112765940A | 公开(公告)日 | 2021-05-07 |
申请公布号 | CN112765940A | 申请公布日 | 2021-05-07 |
分类号 | G06K9/62(2006.01)I;G06F40/30(2020.01)I;G06F40/14(2020.01)I;G06F16/35(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 朱海峰;颜小君;赵立为 | 申请(专利权)人 | 南京万得资讯科技有限公司 |
代理机构 | 上海申汇专利代理有限公司 | 代理人 | 徐俊 |
地址 | 210019江苏省南京市建邺区泰山路199号万得大厦 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种基于主题特征和内容语义的新型网页去重方法,其特征在于,包括:利用HTML网页标签分类模型自动抽取目标网页的网页正文;基于网页正文进行主题计算和限定;网页相似度计算。本发明提供的方法能够一定程度地解决相关技术中存在的问题,应用于互联网中不同来源、不同风格、不同内容的全网网页,并在执行效率、计算准确性等方面显著地优于现有的技术方法。 |
