一种基于LDA的中文问题映射方法
基本信息
申请号 | CN201710662822.X | 申请日 | - |
公开(公告)号 | CN107423439A | 公开(公告)日 | 2017-12-01 |
申请公布号 | CN107423439A | 申请公布日 | 2017-12-01 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 王春辉 | 申请(专利权)人 | 逸途(北京)科技有限公司 |
代理机构 | 北京国坤专利代理事务所(普通合伙) | 代理人 | 逸途(北京)科技有限公司 |
地址 | 100015 北京市朝阳区酒仙桥路4号宏源大厦1904 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于LDA的中文问题映射方法,包括利用LDA主题模型对文档库进行分类,然后使用Softmax回归模型对问题进行词性分类,根据词性分类的不同,赋予实词的权值比虚词的高,而实词中不同词性的权值也不相同,再使用基于依存文法的句法分析来找出句中的词语的依存关系,而根据词语在句子中的成分不同而赋予不同的权重,这样问题中的每个词的权值由两部分乘积所得,最后根据贝叶斯规则,通过问题中词语的加权分布和文档中主题和词项的分布建立起联系。基于LDA的主题模型对文档进行分类,同时参考问句中词项的词性和在句子中的成分来分配不同的权值,从而提高重要词项在分类时的作用,而提高对中文问题映射的准确性。 |
