一种主题分类方法和装置

基本信息

申请号 CN201910656595.9 申请日 -
公开(公告)号 CN110502747A 公开(公告)日 2019-11-26
申请公布号 CN110502747A 申请公布日 2019-11-26
分类号 G06F17/27(2006.01); G06K9/62(2006.01); G06N3/04(2006.01); G06N3/08(2006.01) 分类 计算;推算;计数;
发明人 王子夫; 魏越; 何慧 申请(专利权)人 北京云和时空科技有限公司
代理机构 北京润泽恒知识产权代理有限公司 代理人 北京云和时空科技有限公司
地址 100080 北京市海淀区苏州街1号7层116
法律状态 -

摘要

摘要 本发明实施例提供一种主题分类方法和装置,所述方法包括:对第一语料数据进行分词处理,得到第二语料数据;根据候选分词在第二语料数据的数目确定候选分词的权重值,并将权重值大于权重阈值的候选分词作为第二语料数据的关键词;根据权重值给第二语料数据中各语料子数据分配的目标关键词,并根据语料子数据及目标关键词生成第三语料数据;基于第三语料数据与预置词向量对主题分类模型训练;采用训练后的主题分类模型对目标文本分类。本发明实施例通过自动对语料数据关键词标注,减少了语料数据标注所需的人力投入和人为参与,从而降低了主题分类模型训练的人力投入的同时,避免了由于人为参与导致的误差,提高了主题分类模型的准确性。