一种基于中文分词识别不规则垃圾短信的方法

基本信息

申请号 CN201210533577.X 申请日 -
公开(公告)号 CN103874033B 公开(公告)日 2017-11-24
申请公布号 CN103874033B 申请公布日 2017-11-24
分类号 H04W4/14(2009.01)I;H04M1/725(2006.01)I;G06F17/27(2006.01)I 分类 电通信技术;
发明人 肖克华 申请(专利权)人 上海粱江通信系统股份有限公司
代理机构 上海兆丰知识产权代理事务所(有限合伙) 代理人 上海粱江通信系统股份有限公司
地址 200070 上海市闸北区天目中路585号1109室
法律状态 -

摘要

摘要 本发明公开了一种基于中文分词识别不规则垃圾短信的方法,对于同一短信,依据短信的内容,先按照正常的横向读取进行中文分词,根据分词结果的单词个数计算权重。再根据不规则短信必须控制每行短信字符数的特点,判定不规则短信内容的范围,对不规则排列短信内容范围内的字符采取竖向转换为横向排列,然后进行中文分词,根据总体的分词结果的单词个数计算权重。然后根据两次权重比较,判断此短信是正常排列的短信,还是不规则排列的短信。进而依据排列的类型,再采用内容分析匹配关键字,识别是否垃圾短信,进而避免了垃圾短信的漏判,提高垃圾短信的查全率和查准率。