一种基于机器学习的政策文本分类方法

基本信息

申请号 CN202011585410.9 申请日 -
公开(公告)号 CN112668329A 公开(公告)日 2021-04-16
申请公布号 CN112668329A 申请公布日 2021-04-16
分类号 G06F40/289;G06F40/242;G06K9/62;G06N3/04;G06N3/08;G06N20/00;G06Q50/26 分类 计算;推算;计数;
发明人 龚增辉;胡建敏 申请(专利权)人 广州博士信息技术研究院有限公司
代理机构 广州博士科创知识产权代理有限公司 代理人 李永锋
地址 510000 广东省广州市高新技术产业开发区科学城科珠路203号1201D
法律状态 -

摘要

摘要 本发明提供一种基于机器学习的政策文本分类方法,包括S1)、将数据分类标注,单文本标注;S2)、将各个类别的数据作为训练的数据集,S3)、将政策的标题合并为文本,并将文本转化为向量;S4)、选择CNN算法作为基础算法,将所有卷积核得到的特征拼接起来即为文本的定长向量表示,对于文本分类问题,将其连接至softmax即构建出完整的模型;S5)、定义输出的数据;S6)、将向量加入到元组;S7)、定义分类器;S8)、定义损失函数和准确函数S9)、定义优化方法,S10)、网络训练;S11)、模型评估;S12)、模型预测。本发明具有高效、准确的、智能的政策分类的效果,实现了大规模处理政策数据的分类的难题。