一种缺少负例的文本分类方法专利查询专利号|摘要-满商公司网

一种缺少负例的文本分类方法

基本信息

申请号	CN201911058163.4	申请日	-
公开（公告）号	CN110795564B	公开（公告）日	2022-02-22
申请公布号	CN110795564B	申请公布日	2022-02-22
分类号	G06F16/35（2019.01）I;G06F40/216（2020.01）I;G06F40/242（2020.01）I;G06K9/62（2022.01）I	分类	计算；推算；计数;
发明人	吴刚;王楠	申请（专利权）人	南京稷图数据科技有限公司
代理机构	江苏瑞途律师事务所	代理人	刘琦
地址	210000江苏省南京市秣周东路12号南京未来科技城3号楼1805室
法律状态	-

摘要

本发明公开了一种缺少负例的文本分类方法，属于机器学习和文本分类技术领域。该方法首先确定待分类的数据文本，并自定义文本分类类别；然后基于获取的语料库训练TF‑IDF模型和LSI模型；然后基于训练好的TF‑IDF模型和LSI模型分别构建文本的特征向量，并基于ensemble方法构建组合的文本特征向量；然后采用ROC‑SVM组合算法，训练Basic分类器，并且可结合k‑means聚类方法进行Basic分类器的训练，同时训练label分类器；最后将待分类的文本首先采用Basic分类器进行初始分类，并用Elasticsearch进行筛选，确定候选分类，再采用label分类器将待分类文档准确的分入自定义类别中的一类或者几类中。本发明的方法能够有效地对缺少负例的文本数据进行分类，准确率高、效果好、效率高。