基于句子级索引的数据实时去重方法及系统
基本信息
申请号 | CN202011424391.1 | 申请日 | - |
公开(公告)号 | CN112527948A | 公开(公告)日 | 2021-03-19 |
申请公布号 | CN112527948A | 申请公布日 | 2021-03-19 |
分类号 | G06F16/31(2019.01)I;G06F16/332(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 张友豪;冯卫强 | 申请(专利权)人 | 上海大智慧财汇数据科技有限公司 |
代理机构 | 上海段和段律师事务所 | 代理人 | 高璀璀;郭国中 |
地址 | 200120上海市浦东新区自由贸易试验区郭守敬路498号12幢21501-21507室 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种基于句子级索引的数据实时去重方法及系统,包括:索引构建步骤:对数据构建句子级索引;数据存储步骤:将构建的句子级索引放入ES集群和Redis集群的索引进行存储,所述Redis集群存储预定时间内的数据,所述ES集群存储所有数据;实时去重步骤:对待去重的数据进行历史相似性数据检索,根据待去重的数据的文本长度选择相应的相似度计算方法计算与历史相似性数据检索结果的相似度,根据相似度进行去重,以及形成新的句子级索引并添加到ES集群和Redis集群的索引中。本发明针对不同长度数据,采用不同算法,同时,对海量历史数据采用句子集索引,充分结合ES和Redis的优点进行去重加快查询、实时去重。 |
