一种基于特征扩展的中文短文本分类方法

基本信息

申请号 CN201210446997.4 申请日 -
公开(公告)号 CN102955856B 公开(公告)日 2015-07-08
申请公布号 CN102955856B 申请公布日 2015-07-08
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 欧阳元新;袁满;罗建辉;刘文琦;熊璋 申请(专利权)人 北京洛克威尔科技有限公司
代理机构 北京科迪生专利代理有限责任公司 代理人 杨学明;顾炜
地址 100191 北京市海淀区学院路37号
法律状态 -

摘要

摘要 本发明提供一种基于特征扩展的中文短文本分类方法,包括:步骤(1)建立背景知识库:从带有类别标注的长文本语料库中挖掘满足一定约束条件的特征词的二元组来生成背景知识库;步骤(2)扩展训练集中的短文本:根据背景知识库中的二元组,按照一定的扩展规则对训练集中的短文本添加扩展词;步骤(3)建立分类模型:用经过扩展的短文本训练集建立SVM分类模型;步骤(4)扩展待分类的短文本:根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词;步骤(5)产生分类结果:利用分类模型和扩展后的短文本来产生分类结果。本发明利用长文本语料库来丰富短文本的特征,提高了短文本分类的准确率和召回率。