一种基于LDA的中文问题映射方法

基本信息

申请号 CN201710662822.X 申请日 -
公开(公告)号 CN107423439A 公开(公告)日 2017-12-01
申请公布号 CN107423439A 申请公布日 2017-12-01
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 王春辉 申请(专利权)人 逸途(北京)科技有限公司
代理机构 北京国坤专利代理事务所(普通合伙) 代理人 逸途(北京)科技有限公司
地址 100015 北京市朝阳区酒仙桥路4号宏源大厦1904
法律状态 -

摘要

摘要 本发明公开了一种基于LDA的中文问题映射方法,包括利用LDA主题模型对文档库进行分类,然后使用Softmax回归模型对问题进行词性分类,根据词性分类的不同,赋予实词的权值比虚词的高,而实词中不同词性的权值也不相同,再使用基于依存文法的句法分析来找出句中的词语的依存关系,而根据词语在句子中的成分不同而赋予不同的权重,这样问题中的每个词的权值由两部分乘积所得,最后根据贝叶斯规则,通过问题中词语的加权分布和文档中主题和词项的分布建立起联系。基于LDA的主题模型对文档进行分类,同时参考问句中词项的词性和在句子中的成分来分配不同的权值,从而提高重要词项在分类时的作用,而提高对中文问题映射的准确性。