一种基于中文分词识别不规则垃圾短信的方法
基本信息
申请号 | CN201210533577.X | 申请日 | - |
公开(公告)号 | CN103874033B | 公开(公告)日 | 2017-11-24 |
申请公布号 | CN103874033B | 申请公布日 | 2017-11-24 |
分类号 | H04W4/14(2009.01)I;H04M1/725(2006.01)I;G06F17/27(2006.01)I | 分类 | 电通信技术; |
发明人 | 肖克华 | 申请(专利权)人 | 上海粱江通信系统股份有限公司 |
代理机构 | 上海兆丰知识产权代理事务所(有限合伙) | 代理人 | 上海粱江通信系统股份有限公司 |
地址 | 200070 上海市闸北区天目中路585号1109室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于中文分词识别不规则垃圾短信的方法,对于同一短信,依据短信的内容,先按照正常的横向读取进行中文分词,根据分词结果的单词个数计算权重。再根据不规则短信必须控制每行短信字符数的特点,判定不规则短信内容的范围,对不规则排列短信内容范围内的字符采取竖向转换为横向排列,然后进行中文分词,根据总体的分词结果的单词个数计算权重。然后根据两次权重比较,判断此短信是正常排列的短信,还是不规则排列的短信。进而依据排列的类型,再采用内容分析匹配关键字,识别是否垃圾短信,进而避免了垃圾短信的漏判,提高垃圾短信的查全率和查准率。 |
