一种基于字符向量的短文本分类方法及系统

基本信息

申请号 CN202011225990.0 申请日 -
公开(公告)号 CN112307209A 公开(公告)日 2021-02-02
申请公布号 CN112307209A 申请公布日 2021-02-02
分类号 G06F16/35(2019.01)I; 分类 计算;推算;计数;
发明人 肖刚 申请(专利权)人 江西高创保安服务技术有限公司
代理机构 北京三聚阳光知识产权代理有限公司 代理人 胡晓静
地址 330029江西省南昌市高新区艾溪湖北路129号绿地玫瑰城101智慧大厦二楼
法律状态 -

摘要

摘要 本发明公开了一种基于字符向量的短文本分类方法及系统,该方法包括:获取待分类短文,利用待分类短文生成字符序列样本,将字符序列样本输入预设网络模型进行特征提取,生成字符向量;对待分类短文进行词语切分,生成词序列样本,并根据词序列样本,对字符向量进行字符组合,生成字符向量组合;将待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到待分类短文的文本类型。本发明根据据词序列样本对字符向量进行字符组合,最后根据待分类短文的字符向量组合得到待分类短文的文本类型;利用字符向量对待分类短文进行分类,避免了传统分类方法中以词序列作为训练模型导致训练样本中的词种类有限的问题,保证分类过程的准确性与鲁棒性。