一种文本相似度计算方法和装置

基本信息

申请号 CN202110046179.4 申请日 -
公开(公告)号 CN112364947B 公开(公告)日 2021-06-29
申请公布号 CN112364947B 申请公布日 2021-06-29
分类号 G06K9/62(2006.01)I;G06F40/194(2020.01)I;G06F40/284(2020.01)I;G06F40/30(2020.01)I;G06F16/35(2019.01)I;G06F16/31(2019.01)I 分类 计算;推算;计数;
发明人 张姗姗;姜巍;于游;赵永强 申请(专利权)人 北京育学园健康管理中心有限公司
代理机构 北京绘聚高科知识产权代理事务所(普通合伙) 代理人 罗硕
地址 100000北京市朝阳区西大望路1号2号楼2层会所3内202室1单元
法律状态 -

摘要

摘要 本发明实施例提供一种文本相似度计算方法和装置,本发明实施例通过分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;先基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;然后再基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;最后根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,通过提取文本中的关键词,并利用关键词计算出文本之间的相似度,从而达到快速计文本相似度的目的。