一种问答检索系统的同义词挖掘方法及装置

基本信息

申请号 CN201910672217.X 申请日 -
公开(公告)号 CN110442760B 公开(公告)日 2022-02-15
申请公布号 CN110442760B 申请公布日 2022-02-15
分类号 G06F16/9032(2019.01)I;G06F16/906(2019.01)I;G06F16/951(2019.01)I;G06F40/247(2020.01)I 分类 计算;推算;计数;
发明人 郑申文;丁锴;陈涛;王开红;李建元 申请(专利权)人 银江技术股份有限公司
代理机构 杭州之江专利事务所(普通合伙) 代理人 张慧英
地址 310012 浙江省杭州市益乐路223号1幢1层
法律状态 -

摘要

摘要 本发明涉及一种问答检索系统的同义词挖掘方法及装置,本发明通过对问答语料分类,按类别进行关键词提取,得到待处理关键词集,同时对垂直领域内的大语料进行词向量训练,并计算词向量的余弦相似度,得到当前类别关键词的广义相关词集合,然后进行词性筛选,得到缩略相关词集,再计算缩略相关词集合内的欧式距离,得到同义词对,并统计同义词对的共现频次,计算同义词的替换概率,最终根据同义词对替换后的检索召回结果,对不满足检索召回阈值的同义词对,进行反馈修正,较好的解决了同义词替换后的语义变形问题,提高了同义词挖掘的准确度以及问答对检索结果的准确性。