一种相似文本检测方法、装置、电子设备及存储介质

基本信息

申请号 CN202010191122.9 申请日 -
公开(公告)号 CN111382233A 公开(公告)日 2020-07-07
申请公布号 CN111382233A 申请公布日 2020-07-07
分类号 G06F16/33(2019.01)I 分类 -
发明人 王正 申请(专利权)人 深圳市铭墨科技有限公司
代理机构 北京品源专利代理有限公司 代理人 深圳市随金科技有限公司
地址 518000广东省深圳市南山区粤海街道高新区南区科技南十二路金蝶软件园B栋402室
法律状态 -

摘要

摘要 本发明实施例公开了一种相似文本检测方法、装置、电子设备及存储介质,该方法包括:确定给定文本的文本指纹;统计所述文本指纹中第一标识的总个数或者第二标识的总个数;基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集;针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本。本发明实施例的技术方案,实现了提高相似文本检测效率的目的。