一种基于双通道文本卷积神经网络的带噪非法短文本识别方法

基本信息

申请号 CN201811446969.6 申请日 -
公开(公告)号 CN109670041A 公开(公告)日 2019-04-23
申请公布号 CN109670041A 申请公布日 2019-04-23
分类号 G06F16/35;G06F17/27;G06F17/21;G06F17/22;G06F17/26;G06F40/191 分类 计算;推算;计数;
发明人 周建政;姚金良;黄金海;明建华;俞月伦 申请(专利权)人 天格科技(杭州)有限公司
代理机构 杭州求是专利事务所有限公司 代理人 郑海峰
地址 310005 浙江省杭州市拱墅区湖墅南路186号3层3A09室
法律状态 -

摘要

摘要 本发明涉及一种基于双通道文本卷积神经网络的带噪非法短文本识别方法。包括带噪短文本的预处理、双通道文本卷积神经网络模型的构建,以及模型的训练和实时识别。带噪短文本的预处理用于噪声字符的标准化,消除噪声的影响,提高卷积神经网络模型的学习能力。双通道文本卷积神经网络模型是一个可以同时输入预处理后字符序列和拼音序列的文本卷积神经网络模型。由于增加了拼音序列的输入和建模能力,因此该模型可消除同音字符替换对分类性能影响。本发明能够处理同音字符替换、形状相似的英文字符替换、各种语义相同的数字符号替换等带来的影响,实验结果显示本发明方法对带噪声的非法短文本的识别具有较高的识别准确率和较低的误检率。