一种问答检索系统的同义词挖掘方法及装置
基本信息
申请号 | CN201910672217.X | 申请日 | - |
公开(公告)号 | CN110442760B | 公开(公告)日 | 2022-02-15 |
申请公布号 | CN110442760B | 申请公布日 | 2022-02-15 |
分类号 | G06F16/9032(2019.01)I;G06F16/906(2019.01)I;G06F16/951(2019.01)I;G06F40/247(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 郑申文;丁锴;陈涛;王开红;李建元 | 申请(专利权)人 | 银江技术股份有限公司 |
代理机构 | 杭州之江专利事务所(普通合伙) | 代理人 | 张慧英 |
地址 | 310012 浙江省杭州市益乐路223号1幢1层 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种问答检索系统的同义词挖掘方法及装置,本发明通过对问答语料分类,按类别进行关键词提取,得到待处理关键词集,同时对垂直领域内的大语料进行词向量训练,并计算词向量的余弦相似度,得到当前类别关键词的广义相关词集合,然后进行词性筛选,得到缩略相关词集,再计算缩略相关词集合内的欧式距离,得到同义词对,并统计同义词对的共现频次,计算同义词的替换概率,最终根据同义词对替换后的检索召回结果,对不满足检索召回阈值的同义词对,进行反馈修正,较好的解决了同义词替换后的语义变形问题,提高了同义词挖掘的准确度以及问答对检索结果的准确性。 |
