一种基于统计模型识别短信文本模版的方法、设备及介质

基本信息

申请号 CN202010434799.0 申请日 -
公开(公告)号 CN111597806A 公开(公告)日 2020-08-28
申请公布号 CN111597806A 申请公布日 2020-08-28
分类号 G06F40/279(2020.01)I;G06F40/194(2020.01)I 分类 计算;推算;计数;
发明人 元方;唐小波;宋争光;黄建辉;黄春霞 申请(专利权)人 上海创蓝云智信息科技股份有限公司
代理机构 成都智言知识产权代理有限公司 代理人 胡文莉
地址 201600上海市松江区中创路68号19幢
法律状态 -

摘要

摘要 本发明涉及文本信息识别技术领域,尤其是一种基于统计模型识别短信文本模版的方法、设备及介质,本发明从短信文本内容去反推短信文本模板,通过先收集相似模板的短信文本再做后续处理,在进行两两对比时先获取两条短信中共同的字符;再按公共字符在两文本中出现的顺序进行顺序提取,最后只比较上一步的字符;这样做有如下好处:1)不用全文匹配,省时省力;2)只用选择重点区域比较,更有针对性;3)因为是同一模板,所以必定模板字符同时出现在原文中。由于本发明是基于规则的短信文本模板匹配,短信文本模板识别的正确性很高。本发明还可以减少短信的存储空间,达到约1:10000的存储空间优化。