一种基于训练集循环扩充的文本多分类的方法

基本信息

申请号 CN201610535646.9 申请日 -
公开(公告)号 CN107590156A 公开(公告)日 2018-01-16
申请公布号 CN107590156A 申请公布日 2018-01-16
分类号 G06F17/30 分类 计算;推算;计数;
发明人 李雪鹏;田昊枢;毛智愚;欧高炎 申请(专利权)人 北京至信普林科技有限公司
代理机构 - 代理人 -
地址 100085 北京市海淀区西北旺东路10号院东区5号楼六层603
法律状态 -

摘要

摘要 本发明涉及文本多分类系统技术领域,特别涉及一种基于机器学习的应用程序分类的方法。通过应用循环扩充训练集,以提高使用计算机进行文本多分类的分类效果。具体技术方案包括:使用文本信息的标题以及文本信息内容综合考虑方案进行文本多分类的方法;构建关键词、停用词词典的方法;用人工添加规则的方法提高小类别分类的效果。在使用同等数量的正确分类结论(人工标注的正确结论),循环扩充训练集的方法可以有效提升利用计算机进行文本多酚类的准确率。同时,该方法的分类效率远高于人工分类。