一种资讯去重的方法、系统、存储介质及电子设备
基本信息

| 申请号 | CN202010202214.2 | 申请日 | - |
| 公开(公告)号 | CN111552864A | 公开(公告)日 | 2020-08-18 |
| 申请公布号 | CN111552864A | 申请公布日 | 2020-08-18 |
| 分类号 | G06F16/9535(2019.01)I;G06F16/9538(2019.01)I | 分类 | - |
| 发明人 | 陈扬;陆惠国;顾文斌;樊梦军;徐东剑 | 申请(专利权)人 | 上海恒生聚源数据服务有限公司 |
| 代理机构 | 杭州华鼎知识产权代理事务所(普通合伙) | 代理人 | 上海恒生聚源数据服务有限公司 |
| 地址 | 200127上海市浦东新区峨山路91弄61号7楼 | ||
| 法律状态 | - | ||
摘要

| 摘要 | 本发明涉及计算机技术领域,尤其涉及一种资讯去重的方法、系统、存储介质及电子设备,方法包括:对目标资讯的标题与去重库中资讯的标题进行重复判断;若资讯的标题重复,则对标题重复的资讯进行去重处理;若资讯的标题不重复,则对目标资讯的内容与去重库中资讯的内容进行重复判断:获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,N、M为大于1的自然数;基于各子码建立去重库中对应资讯的索引;对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断,若资讯的内容重复,则对内容重复的资讯进行去重处理。通过使用本发明,可以快速、准确的实现资讯重复的判断。 |





