关联词库生成方法、文本检索方法、装置、设备及介质

基本信息

申请号 CN202210145591.6 申请日 -
公开(公告)号 CN114519350A 公开(公告)日 2022-05-20
申请公布号 CN114519350A 申请公布日 2022-05-20
分类号 G06F40/289(2020.01)I;G06F40/216(2020.01)I 分类 计算;推算;计数;
发明人 孙园 申请(专利权)人 国泰新点软件股份有限公司
代理机构 北京品源专利代理有限公司 代理人 -
地址 215600江苏省苏州市张家港经济开发区(杨舍镇长兴路)
法律状态 -

摘要

摘要 本发明公开了一种关联词库生成方法、文本检索方法、装置、设备及介质。关联词库生成方法包括:获取至少一个样本文本,并确定所述样本文本的至少一个样本分词;基于词向量提取模型提取所述样本分词的词向量;对所述词向量进行聚类处理,并确定所述样本分词之间的语义距离;基于所述语义距离和所述样本分词生成关联词库;其中,所述关联词库用于在对待检索文本进行检索时确定所述待检索文本中目标分词的关联分词。通过本发明公开的技术方案,提升了检索的查准率和查全率。