一种基于机器学习的文本分类方法

基本信息

申请号 CN202011544023.0 申请日 -
公开(公告)号 CN113157912A 公开(公告)日 2021-07-23
申请公布号 CN113157912A 申请公布日 2021-07-23
分类号 G06F16/35;G06F40/216;G06K9/62;G06N20/10 分类 计算;推算;计数;
发明人 刘建雄;陈敏 申请(专利权)人 航天科工网络信息发展有限公司
代理机构 中国兵器工业集团公司专利中心 代理人 张然
地址 100854 北京市海淀区永定路52号东门
法律状态 -

摘要

摘要 本发明涉及一种基于机器学习的文本分类方法,其中,包括:文本数据预处理、文本表示、特征降维、分类模型训练以及分类性能评估;文本数据预处理具体包括:按照顺序需要对文本数据进行操作:文本标记、文本分词处理以及去除停用词处理;文本表示包括:经过文本预处理之后,将文本表示成一种形式化数学描述,使之成为计算机能够识别的语言;卡方统计算法以及互信息算法,进行特征降维。本发明在CHI中引入词频因子,MI中引入调节因子,形成新的特征选取算法CHMI,理论效果优于卡方统计和互信息算法,实现了快速、准确获取到目标数据。