一种相似文档检测方法、系统、终端设备及计算机可读存储介质
基本信息
申请号 | CN202011012142.1 | 申请日 | - |
公开(公告)号 | CN112163409A | 公开(公告)日 | 2021-01-01 |
申请公布号 | CN112163409A | 申请公布日 | 2021-01-01 |
分类号 | G06F40/194(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 肖畅;钱百万;谭茵;何克东;张奕;朱葛 | 申请(专利权)人 | 平安直通咨询有限公司上海分公司 |
代理机构 | 深圳市沃德知识产权代理事务所(普通合伙) | 代理人 | 平安直通咨询有限公司上海分公司 |
地址 | 200000上海市静安区常熟路8号裙房4层A室 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及数据分析技术领域,揭露了一种相似文档检测方法,该方法包括:对目标文档进行分词处理,得到所述目标文档的第一分词集合;根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量;对各历史文档进行分词处理,得到每个历史文档各自的第二分词集合;根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量;根据所述目标文档的多维向量与所述各历史文档的多维向量,确定所述目标文档与所述各历史文档的相似度,将相似度满足要求的历史文档确定为与所述目标文档相似的文档。这样,根据多维向量确定目标文档与各历史文档的相似度,提高相似文档检测效率及准确度,减少时间消耗。 |
