一种相似文本检测方法、装置、电子设备及存储介质
基本信息

| 申请号 | CN202010191122.9 | 申请日 | - |
| 公开(公告)号 | CN111382233A | 公开(公告)日 | 2020-07-07 |
| 申请公布号 | CN111382233A | 申请公布日 | 2020-07-07 |
| 分类号 | G06F16/33(2019.01)I | 分类 | - |
| 发明人 | 王正 | 申请(专利权)人 | 深圳市铭墨科技有限公司 |
| 代理机构 | 北京品源专利代理有限公司 | 代理人 | 深圳市随金科技有限公司 |
| 地址 | 518000广东省深圳市南山区粤海街道高新区南区科技南十二路金蝶软件园B栋402室 | ||
| 法律状态 | - | ||
摘要

| 摘要 | 本发明实施例公开了一种相似文本检测方法、装置、电子设备及存储介质,该方法包括:确定给定文本的文本指纹;统计所述文本指纹中第一标识的总个数或者第二标识的总个数;基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集;针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本。本发明实施例的技术方案,实现了提高相似文本检测效率的目的。 |





