一种PDF文件修复方法和系统
基本信息
申请号 | CN201910456021.7 | 申请日 | - |
公开(公告)号 | CN110222617A | 公开(公告)日 | 2019-09-10 |
申请公布号 | CN110222617A | 申请公布日 | 2019-09-10 |
分类号 | G06K9/00(2006.01)I; G06K9/62(2006.01)I; G06F17/24(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 左林翼; 杨龙杰; 盛鹏展; 杨超; 李剑 | 申请(专利权)人 | 四川译讯信息科技有限公司 |
代理机构 | 成都九鼎天元知识产权代理有限公司 | 代理人 | 四川译讯信息科技有限公司 |
地址 | 610041 四川省成都市高新区蜀锦路88号31层07号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种PDF文件修复方法和系统。方法流程为:A.绘制PDF文件中每个字符的字符图像;B.采用OCR识别模型分别对每个字符图像进行字符识别,基于字符识别结果,编制出字符映射表,该字符映射表含字符字型与字符编码的映射关系;C.以字符映射表修复PDF文件的CMAP表。系统包括依次连接的字符扫描模块、OCR识别模块、映射表构建模块和CMAP表修复模块;字符扫描模块绘制PDF文件中的字符图像,OCR识别模块对其进行识别以得到字符字型,映射表构建模块基于字符字型和通用字符编码表构建字符映射表,CMAP表修复模块一字符映射表修复PDF文件的CMAP表。本发明可以从根本上解决PDF文件的文本不可被有效复制的问题,所修复的PDF文件可被一直使用。 |
