一种针对带表格合同的OCR识别方法

基本信息

申请号 CN202010529446.9 申请日 -
公开(公告)号 CN111709349A 公开(公告)日 2020-09-25
申请公布号 CN111709349A 申请公布日 2020-09-25
分类号 G06K9/00(2006.01)I 分类 计算;推算;计数;
发明人 程欢;吴青昀;徐俊杰 申请(专利权)人 杭州尚尚签网络科技有限公司
代理机构 杭州求是专利事务所有限公司 代理人 杭州尚尚签网络科技有限公司
地址 310012浙江省杭州市西湖区万塘路317号华星世纪大楼2层202房
法律状态 -

摘要

摘要 本发明公开了一种针对带表格合同的OCR识别方法,涉及OCR及深度学习领域。该方法具体包括:对输入的带表格合同图片使用基于YOLOv4的表格检测模型进行检测,利用检测结果对合同图片进行切片处理,得到表格图片;对表格图片使用基于YOLOv4的表格单元格检测模型进行检测,利用检测结果对表格图片进行切片处理,得到表格单元格切片;对表格单元格切片使用基于CRNN+CTC的文字识别模型进行识别,得到单元格内容;结合上述步骤输出信息得到整张合同图片结构化输出。该方法通过将带表格合同识别分成表格检测,单元格检测,单元格识别三个步骤,分别针对性地优化每个步骤模型的性能,提高了表格识别的效果。