文本检测方法、装置、计算设备及计算机可读存储介质
基本信息
申请号 | CN201810546892.3 | 申请日 | - |
公开(公告)号 | CN108829780A | 公开(公告)日 | 2018-11-16 |
申请公布号 | CN108829780A | 申请公布日 | 2018-11-16 |
分类号 | G06F17/30;G06F17/27 | 分类 | 计算;推算;计数; |
发明人 | 于洋;刘磊;徐香义;柏少乾 | 申请(专利权)人 | 北京万方数据股份有限公司 |
代理机构 | 北京市立方律师事务所 | 代理人 | 张筱宁 |
地址 | 100036 北京市海淀区复兴路15号 | ||
法律状态 | - |
摘要
摘要 | 本申请公开了一种文本检测方法、装置、计算设备及计算机可读存储介质,该文本检测方法包括:对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表;基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段;基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度。本申请中,实现了对文本的有效检测,提升了检测效率;并且通过采用TF_IDF值进行差值计算方式,不仅提高了计算的精确度,亦极大地提高了检测速度。 |
