一种多分类模型训练方法、系统及装置

基本信息

申请号 CN201911363343.3 申请日 -
公开(公告)号 CN113051462A 公开(公告)日 2021-06-29
申请公布号 CN113051462A 申请公布日 2021-06-29
分类号 G06F16/9535;G06F16/35 分类 计算;推算;计数;
发明人 张剑;骆起峰;程刚;王昕;刘轶;黄石磊;杨大明 申请(专利权)人 深圳市北科瑞声科技股份有限公司
代理机构 深圳市万商天勤知识产权事务所(普通合伙) 代理人 罗建平
地址 518000 广东省深圳市南山区高新区南区深港产学研基地大楼西座四楼W406室
法律状态 -

摘要

摘要 本发明公开了一种多分类模型训练方法、系统及装置。方法包括数据预处理步骤,分类步骤和聚类步骤;数据预处理步骤对采集的新闻数据进行初步处理,均衡处理,划分为训练集和测试集,进行分词处理,构建为带有类别标签的格式;分类步骤构建文本分类模型,对训练集中的文本数据进行训练,得到分类器;使用分类器测试每个测试子集,将测试准确度小于阈值的公司筛选出来构建一个列表;聚类步骤找出列表中每个公司的文本数据,转换为向量,对向量进行聚类,训练得到二元分类模型。相对于传统的机器学习方法,本发明方案可以使分类的效果越来越好;而相对于深度模型的方法,本发明方案对数据的依赖比现有技术低。