一种基于种子词的半监督LDA模型
基本信息
申请号 | CN201810261009.6 | 申请日 | - |
公开(公告)号 | CN110555106A | 公开(公告)日 | 2019-12-10 |
申请公布号 | CN110555106A | 申请公布日 | 2019-12-10 |
分类号 | G06F16/35(2019.01) | 分类 | 计算;推算;计数; |
发明人 | 杨育斌; 黄冠寰; 柯宗贵 | 申请(专利权)人 | 蓝盾信息安全技术有限公司 |
代理机构 | - | 代理人 | - |
地址 | 510665 广东省广州市广州高新技术产业开发区东明二路5号A326房 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于种子词的半监督LDA模型,该发明在基础的LDA模型上,加入词到主题的人工分类知识,根据这些先验知识调整从主题抽取词时的概率分布,从而构造了一个半监督的文本主题提取模型;利用先验知识,使已知所属主题的词不在参与到LDA模型过程的分布,不仅降低反推计算概率分布的计算量,还能有利于提升聚类准确度。 |
