一种基于机器学习的文本分类方法
基本信息
申请号 | CN202011544023.0 | 申请日 | - |
公开(公告)号 | CN113157912A | 公开(公告)日 | 2021-07-23 |
申请公布号 | CN113157912A | 申请公布日 | 2021-07-23 |
分类号 | G06F16/35;G06F40/216;G06K9/62;G06N20/10 | 分类 | 计算;推算;计数; |
发明人 | 刘建雄;陈敏 | 申请(专利权)人 | 航天科工网络信息发展有限公司 |
代理机构 | 中国兵器工业集团公司专利中心 | 代理人 | 张然 |
地址 | 100854 北京市海淀区永定路52号东门 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种基于机器学习的文本分类方法,其中,包括:文本数据预处理、文本表示、特征降维、分类模型训练以及分类性能评估;文本数据预处理具体包括:按照顺序需要对文本数据进行操作:文本标记、文本分词处理以及去除停用词处理;文本表示包括:经过文本预处理之后,将文本表示成一种形式化数学描述,使之成为计算机能够识别的语言;卡方统计算法以及互信息算法,进行特征降维。本发明在CHI中引入词频因子,MI中引入调节因子,形成新的特征选取算法CHMI,理论效果优于卡方统计和互信息算法,实现了快速、准确获取到目标数据。 |
