一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法

基本信息

申请号 CN201610369833.4 申请日 -
公开(公告)号 CN106095791A 公开(公告)日 2016-11-09
申请公布号 CN106095791A 申请公布日 2016-11-09
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 分类 计算;推算;计数;
发明人 吴琳;韩广;袁鑫攀;李亚楠 申请(专利权)人 长源动力(山东)智能科技有限公司
代理机构 长沙市护航专利代理事务所(特殊普通合伙) 代理人 长源动力(山东)智能科技有限公司;长源动力(北京)科技有限公司
地址 250300 山东省济南市长清区崮云湖街道办事处丹凤小区南区1区1号楼
法律状态 -

摘要

摘要 本发明提出了一种基于上下文的抽象样本信息检索系统。该系统中抽象样本特征化表示方法利用Word2vector提取词义特征,获得抽象词的词向量;而后,对抽象词的词向量进行“最优适应度划分”的聚类,并根据聚类结果将抽象词替代表示为聚类质心;最后,根据质心及其所代表的抽象词的词频,构成词向量聚类质心频率模型(ST?IDF),用于特征化表示抽象样本。本发明降低了聚类及适应度计算的执行次数,提高了抽象样本相似性分析的性能,提升了样本分类准确率。