一种缺少负例的文本分类方法
基本信息
申请号 | CN201911058163.4 | 申请日 | - |
公开(公告)号 | CN110795564B | 公开(公告)日 | 2022-02-22 |
申请公布号 | CN110795564B | 申请公布日 | 2022-02-22 |
分类号 | G06F16/35(2019.01)I;G06F40/216(2020.01)I;G06F40/242(2020.01)I;G06K9/62(2022.01)I | 分类 | 计算;推算;计数; |
发明人 | 吴刚;王楠 | 申请(专利权)人 | 南京稷图数据科技有限公司 |
代理机构 | 江苏瑞途律师事务所 | 代理人 | 刘琦 |
地址 | 210000江苏省南京市秣周东路12号南京未来科技城3号楼1805室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种缺少负例的文本分类方法,属于机器学习和文本分类技术领域。该方法首先确定待分类的数据文本,并自定义文本分类类别;然后基于获取的语料库训练TF‑IDF模型和LSI模型;然后基于训练好的TF‑IDF模型和LSI模型分别构建文本的特征向量,并基于ensemble方法构建组合的文本特征向量;然后采用ROC‑SVM组合算法,训练Basic分类器,并且可结合k‑means聚类方法进行Basic分类器的训练,同时训练label分类器;最后将待分类的文本首先采用Basic分类器进行初始分类,并用Elasticsearch进行筛选,确定候选分类,再采用label分类器将待分类文档准确的分入自定义类别中的一类或者几类中。本发明的方法能够有效地对缺少负例的文本数据进行分类,准确率高、效果好、效率高。 |
