一种文本精细分类方法

基本信息

申请号 CN201510239027.0 申请日 -
公开(公告)号 CN104820703A 公开(公告)日 2015-08-05
申请公布号 CN104820703A 申请公布日 2015-08-05
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 郑胜;张胜;邹复好;蒋丹;夏明;周可 申请(专利权)人 武汉数为科技有限公司
代理机构 武汉东喻专利代理事务所(普通合伙) 代理人 宋业斌
地址 430074 湖北省武汉市东湖高新技术开发区高新大道999号
法律状态 -

摘要

摘要 本发明提供了一种文本精细分类方法,属于计算机自然语言处理或模式识别技术领域,解决现有文本分类方法针对短文档精细类别划分准确率低的问题。本发明首先根据已知训练样本,构造两级分类器,每一级分类器都包含独立的敏感词典;其次,对分类器的训练样本执行分词、去除专用停顿词、同义词网映射等操作,实现词向量的预处理;再次,根据词向量的重要性差异进行特征选择,构建分类器的敏感词典;再次,利用KNN算法计算目标文档的精细分类结果;最后,对分类结果进行评价与反馈,动态优化敏感词典,进一步提高分类准确率。实验证明,针对短文档,采用本文的文本精细分类方法,可以显著提高精细分类的准确率。