一种多分类模型训练方法、系统及装置
基本信息
申请号 | CN201911363343.3 | 申请日 | - |
公开(公告)号 | CN113051462A | 公开(公告)日 | 2021-06-29 |
申请公布号 | CN113051462A | 申请公布日 | 2021-06-29 |
分类号 | G06F16/9535;G06F16/35 | 分类 | 计算;推算;计数; |
发明人 | 张剑;骆起峰;程刚;王昕;刘轶;黄石磊;杨大明 | 申请(专利权)人 | 深圳市北科瑞声科技股份有限公司 |
代理机构 | 深圳市万商天勤知识产权事务所(普通合伙) | 代理人 | 罗建平 |
地址 | 518000 广东省深圳市南山区高新区南区深港产学研基地大楼西座四楼W406室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种多分类模型训练方法、系统及装置。方法包括数据预处理步骤,分类步骤和聚类步骤;数据预处理步骤对采集的新闻数据进行初步处理,均衡处理,划分为训练集和测试集,进行分词处理,构建为带有类别标签的格式;分类步骤构建文本分类模型,对训练集中的文本数据进行训练,得到分类器;使用分类器测试每个测试子集,将测试准确度小于阈值的公司筛选出来构建一个列表;聚类步骤找出列表中每个公司的文本数据,转换为向量,对向量进行聚类,训练得到二元分类模型。相对于传统的机器学习方法,本发明方案可以使分类的效果越来越好;而相对于深度模型的方法,本发明方案对数据的依赖比现有技术低。 |
