一种快速的结构化支持向量机文本分类优化算法

基本信息

申请号 CN201610974870.8 申请日 -
公开(公告)号 CN106528771A 公开(公告)日 2017-03-22
申请公布号 CN106528771A 申请公布日 2017-03-22
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 分类 计算;推算;计数;
发明人 郭泽颖;柯戈扬;印鉴 申请(专利权)人 广州智海纵横信息科技有限公司
代理机构 广州粤高专利商标代理有限公司 代理人 中山大学;广州中大南沙科技创新产业园有限公司;广州智海纵横信息科技有限公司
地址 510275 广东省广州市海珠区新港西路135号
法律状态 -

摘要

摘要 本发明提供一种快速的结构化支持向量机文本分类优化算法,该算法针对不平衡数据集的文本分类任务,用精确率、召回率、AUC等性能评估方法直接优化大类性能评价指标,该方法不同于大多数传统的文本分类算法:代替学习一个单一规则来预测单个样本的标签,该方法将学习问题形式化为在数据集中的所有样本上的一个多元预测问题,区别于传统方法将降低总体分类错误率为目标的思想,提高在文本数据集不平衡情况下的分类精度,有效提高分类性能;参考基于Structural SVM的稀疏逼近算法,该方法不仅有较好的时间复杂度,可以用于从精确率、召回率计算出来的评价指标,如F值,以及AUC的优化,降低了时间复杂度并获得了更好的效果。