一种基于新闻文本信息的多级分类系统及方法

基本信息

申请号 CN201710103541.0 申请日 -
公开(公告)号 CN106909654B 公开(公告)日 2020-07-21
申请公布号 CN106909654B 申请公布日 2020-07-21
分类号 G06F16/35 分类 计算;推算;计数;
发明人 赵毅强 申请(专利权)人 北京时间有限公司
代理机构 北京市浩天知识产权代理事务所(普通合伙) 代理人 宋菲;刘兰兰
地址 100089 北京市海淀区西三环北路3号一区1号楼7层710
法律状态 -

摘要

摘要 本发明公开了一种基于新闻文本信息的多级分类系统及方法,涉及文件分类技术领域。其中,该系统包括:训练模块,用于针对新闻文本信息的各级分类,通过多种机器学习算法对预设的训练样本集进行训练,根据训练结果确定各级分类所对应的分类器的数量和类型;多级分类模块,用于根据训练模块确定的各级分类所对应的分类器的数量和类型,配置相应的多级分类模型;结果确定模块,用于将获取到的待分类新闻文本信息输入多级分类模型进行分类,将多级分类模型的输出结果确定为待分类新闻文本信息的最终分类结果。由此可见,本发明有针对性的解决了样本数据不平衡导致的分类结果不准确的问题,并且有效提高了分类的准确性,提升了分类效率。