一种金融类pdf扫描件的文本识别方法及装置

基本信息

申请号 CN202110735367.8 申请日 -
公开(公告)号 CN113469029A 公开(公告)日 2021-10-01
申请公布号 CN113469029A 申请公布日 2021-10-01
分类号 G06K9/00(2006.01)I;G06K9/34(2006.01)I;G06K9/32(2006.01)I 分类 计算;推算;计数;
发明人 金鑫;李鹏辉 申请(专利权)人 上海犀语科技有限公司
代理机构 上海乐泓专利代理事务所(普通合伙) 代理人 王瑞
地址 200082上海市杨浦区伟德路6号1005-18室
法律状态 -

摘要

摘要 本发明公开了一种金融类pdf扫描件的文本识别方法,它包括创建图像生成模板;在图像生成模板中插入模板信息,使用图像生成模板生成训练图像利用生成的训练图像作为训练数据,训练文本识别模型;使用文本识别模型识别pdf扫描件。本发明还公开了一种金融类pdf扫描件的文本识别装置,包括模板创建模块、训练图像生成模块、文本识别模型训练模块、文本识别服务模块、校验模块。本发明的一种金融类pdf扫描件的文本识别方法及装置,无需大量人工标注,能够在字体模糊、方向倾斜、水印等复杂情况下实现对pdf扫描件的自动识别,且识别效率高,提高了pdf扫描件的识别准确率。