一种解析纸质保单数据的方法

基本信息

申请号 CN201910222271.4 申请日 -
公开(公告)号 CN109918679A 公开(公告)日 2019-06-21
申请公布号 CN109918679A 申请公布日 2019-06-21
分类号 G06F17/27(2006.01)I; G06F16/903(2019.01)I; G06F16/35(2019.01)I 分类 计算;推算;计数;
发明人 王健荣; 曹光旺; 金鑫; 李小川 申请(专利权)人 成都肯定科技有限公司
代理机构 - 代理人 -
地址 610000 四川省成都市(四川)自由贸易试验区成都高新区吉泰路666号3栋13层4号
法律状态 -

摘要

摘要 本发明公开了一种解析纸质保单数据的方法,识别数据并匹配到解析模板,将数据按行规整并排序,通过“最优坐标系”算法,计算得出倾斜度坐标系公式,利用坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,通过距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,再将同行数据分解并分类,使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,使用“字符串相似度”算法,匹配到相似度最高的字段,使用“四相匹配”算法,得出最优的匹配结果,对匹配结果进行分类组装,并“数据格式化”。可对OCR数据按行排序;利用专业的词汇对识别错误的字段进行智能纠错;对保单特定的数据格式进行合理格式化。