一种金融类pdf扫描件的文本识别方法及装置
基本信息
申请号 | CN202110735367.8 | 申请日 | - |
公开(公告)号 | CN113469029A | 公开(公告)日 | 2021-10-01 |
申请公布号 | CN113469029A | 申请公布日 | 2021-10-01 |
分类号 | G06K9/00(2006.01)I;G06K9/34(2006.01)I;G06K9/32(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 金鑫;李鹏辉 | 申请(专利权)人 | 上海犀语科技有限公司 |
代理机构 | 上海乐泓专利代理事务所(普通合伙) | 代理人 | 王瑞 |
地址 | 200082上海市杨浦区伟德路6号1005-18室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种金融类pdf扫描件的文本识别方法,它包括创建图像生成模板;在图像生成模板中插入模板信息,使用图像生成模板生成训练图像利用生成的训练图像作为训练数据,训练文本识别模型;使用文本识别模型识别pdf扫描件。本发明还公开了一种金融类pdf扫描件的文本识别装置,包括模板创建模块、训练图像生成模块、文本识别模型训练模块、文本识别服务模块、校验模块。本发明的一种金融类pdf扫描件的文本识别方法及装置,无需大量人工标注,能够在字体模糊、方向倾斜、水印等复杂情况下实现对pdf扫描件的自动识别,且识别效率高,提高了pdf扫描件的识别准确率。 |
