一种缺少负例的文本分类方法

基本信息

申请号 CN201911058163.4 申请日 -
公开(公告)号 CN110795564B 公开(公告)日 2022-02-22
申请公布号 CN110795564B 申请公布日 2022-02-22
分类号 G06F16/35(2019.01)I;G06F40/216(2020.01)I;G06F40/242(2020.01)I;G06K9/62(2022.01)I 分类 计算;推算;计数;
发明人 吴刚;王楠 申请(专利权)人 南京稷图数据科技有限公司
代理机构 江苏瑞途律师事务所 代理人 刘琦
地址 210000江苏省南京市秣周东路12号南京未来科技城3号楼1805室
法律状态 -

摘要

摘要 本发明公开了一种缺少负例的文本分类方法,属于机器学习和文本分类技术领域。该方法首先确定待分类的数据文本,并自定义文本分类类别;然后基于获取的语料库训练TF‑IDF模型和LSI模型;然后基于训练好的TF‑IDF模型和LSI模型分别构建文本的特征向量,并基于ensemble方法构建组合的文本特征向量;然后采用ROC‑SVM组合算法,训练Basic分类器,并且可结合k‑means聚类方法进行Basic分类器的训练,同时训练label分类器;最后将待分类的文本首先采用Basic分类器进行初始分类,并用Elasticsearch进行筛选,确定候选分类,再采用label分类器将待分类文档准确的分入自定义类别中的一类或者几类中。本发明的方法能够有效地对缺少负例的文本数据进行分类,准确率高、效果好、效率高。