一种解析纸质保单数据的方法
基本信息
申请号 | CN201910222271.4 | 申请日 | - |
公开(公告)号 | CN109918679A | 公开(公告)日 | 2019-06-21 |
申请公布号 | CN109918679A | 申请公布日 | 2019-06-21 |
分类号 | G06F17/27(2006.01)I; G06F16/903(2019.01)I; G06F16/35(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 王健荣; 曹光旺; 金鑫; 李小川 | 申请(专利权)人 | 成都肯定科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 610000 四川省成都市(四川)自由贸易试验区成都高新区吉泰路666号3栋13层4号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种解析纸质保单数据的方法,识别数据并匹配到解析模板,将数据按行规整并排序,通过“最优坐标系”算法,计算得出倾斜度坐标系公式,利用坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,通过距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,再将同行数据分解并分类,使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,使用“字符串相似度”算法,匹配到相似度最高的字段,使用“四相匹配”算法,得出最优的匹配结果,对匹配结果进行分类组装,并“数据格式化”。可对OCR数据按行排序;利用专业的词汇对识别错误的字段进行智能纠错;对保单特定的数据格式进行合理格式化。 |
