一种多源数据文档实时快速去重方法及系统
基本信息
申请号 | CN201811456999.5 | 申请日 | - |
公开(公告)号 | CN109635084B | 公开(公告)日 | 2020-11-24 |
申请公布号 | CN109635084B | 申请公布日 | 2020-11-24 |
分类号 | G06F16/332;G06F40/284 | 分类 | 计算;推算;计数; |
发明人 | 柴志伟;丑晓慧;许冠宇;宋乐安;许涵洋 | 申请(专利权)人 | 上海深擎信息科技有限公司 |
代理机构 | 北京酷爱智慧知识产权代理有限公司 | 代理人 | 宁波深擎信息科技有限公司;上海深擎信息科技有限公司 |
地址 | 315200 浙江省宁波市镇海区骆驼街道锦业街18号(镇海大厦)办公大楼6层 | ||
法律状态 | - |
摘要
摘要 | 本发明属于信息处理技术领域,具体涉及一种多源数据文档实时快速去重方法及系统,包括以下步骤:接收当前文档并对当前文档进行过滤,得到过滤后的文档数据;通过局部敏感性hash算法,计算出文档数据的特征字;根据特征字和文档数据,判断当前文档与数据库存储的之前文档是否相似;如果不相似,则将当前文档的特征字和文档数据存储到数据库,否则不存储。本发明能够对不同来源的相似的文档数据进行实时快速的去重处理,避免相似文档的重复存储。 |
