一种文本精细分类方法
基本信息
申请号 | CN201510239027.0 | 申请日 | - |
公开(公告)号 | CN104820703A | 公开(公告)日 | 2015-08-05 |
申请公布号 | CN104820703A | 申请公布日 | 2015-08-05 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 郑胜;张胜;邹复好;蒋丹;夏明;周可 | 申请(专利权)人 | 武汉数为科技有限公司 |
代理机构 | 武汉东喻专利代理事务所(普通合伙) | 代理人 | 宋业斌 |
地址 | 430074 湖北省武汉市东湖高新技术开发区高新大道999号 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种文本精细分类方法,属于计算机自然语言处理或模式识别技术领域,解决现有文本分类方法针对短文档精细类别划分准确率低的问题。本发明首先根据已知训练样本,构造两级分类器,每一级分类器都包含独立的敏感词典;其次,对分类器的训练样本执行分词、去除专用停顿词、同义词网映射等操作,实现词向量的预处理;再次,根据词向量的重要性差异进行特征选择,构建分类器的敏感词典;再次,利用KNN算法计算目标文档的精细分类结果;最后,对分类结果进行评价与反馈,动态优化敏感词典,进一步提高分类准确率。实验证明,针对短文档,采用本文的文本精细分类方法,可以显著提高精细分类的准确率。 |
