一种基于机器学习的政策文本分类方法
基本信息
申请号 | CN202011585410.9 | 申请日 | - |
公开(公告)号 | CN112668329A | 公开(公告)日 | 2021-04-16 |
申请公布号 | CN112668329A | 申请公布日 | 2021-04-16 |
分类号 | G06F40/289;G06F40/242;G06K9/62;G06N3/04;G06N3/08;G06N20/00;G06Q50/26 | 分类 | 计算;推算;计数; |
发明人 | 龚增辉;胡建敏 | 申请(专利权)人 | 广州博士信息技术研究院有限公司 |
代理机构 | 广州博士科创知识产权代理有限公司 | 代理人 | 李永锋 |
地址 | 510000 广东省广州市高新技术产业开发区科学城科珠路203号1201D | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种基于机器学习的政策文本分类方法,包括S1)、将数据分类标注,单文本标注;S2)、将各个类别的数据作为训练的数据集,S3)、将政策的标题合并为文本,并将文本转化为向量;S4)、选择CNN算法作为基础算法,将所有卷积核得到的特征拼接起来即为文本的定长向量表示,对于文本分类问题,将其连接至softmax即构建出完整的模型;S5)、定义输出的数据;S6)、将向量加入到元组;S7)、定义分类器;S8)、定义损失函数和准确函数S9)、定义优化方法,S10)、网络训练;S11)、模型评估;S12)、模型预测。本发明具有高效、准确的、智能的政策分类的效果,实现了大规模处理政策数据的分类的难题。 |
