一种多源数据文档实时快速去重方法及系统

基本信息

申请号 CN201811456999.5 申请日 -
公开(公告)号 CN109635084B 公开(公告)日 2020-11-24
申请公布号 CN109635084B 申请公布日 2020-11-24
分类号 G06F16/332;G06F40/284 分类 计算;推算;计数;
发明人 柴志伟;丑晓慧;许冠宇;宋乐安;许涵洋 申请(专利权)人 上海深擎信息科技有限公司
代理机构 北京酷爱智慧知识产权代理有限公司 代理人 宁波深擎信息科技有限公司;上海深擎信息科技有限公司
地址 315200 浙江省宁波市镇海区骆驼街道锦业街18号(镇海大厦)办公大楼6层
法律状态 -

摘要

摘要 本发明属于信息处理技术领域,具体涉及一种多源数据文档实时快速去重方法及系统,包括以下步骤:接收当前文档并对当前文档进行过滤,得到过滤后的文档数据;通过局部敏感性hash算法,计算出文档数据的特征字;根据特征字和文档数据,判断当前文档与数据库存储的之前文档是否相似;如果不相似,则将当前文档的特征字和文档数据存储到数据库,否则不存储。本发明能够对不同来源的相似的文档数据进行实时快速的去重处理,避免相似文档的重复存储。