一种基于词性特征和语义增强的短文本主题建模方法

基本信息

申请号 CN202010193427.3 申请日 -
公开(公告)号 CN111368068A 公开(公告)日 2020-07-03
申请公布号 CN111368068A 申请公布日 2020-07-03
分类号 G06F16/34;G06F16/35;G06F40/284;G06F40/289;G06F40/295;G06F40/30;G06K9/62 分类 -
发明人 赵博 申请(专利权)人 江苏鸿程大数据技术与应用研究院有限公司
代理机构 北京联瑞联丰知识产权代理事务所(普通合伙) 代理人 江苏鸿程大数据技术与应用研究院有限公司
地址 210000 江苏省南京市江北新区研创园团结路99号孵鹰大厦1120室
法律状态 -

摘要

摘要 本发明公开了一种基于词性特征和语义增强的短文本主题建模方法,包括:(a)自定义词性特征;(b)计算各个单词间的语义相似度(c)生成建模文档;和(d)在模型的吉布斯采样推断过程中,对特定的单词进行语义增强。以解决现有的短文本主题模型无法对一个主题进行全面、具体的分析,也无法很好地解决短文本中存在的稀疏性的问题。