一种PDF文件修复方法和系统

基本信息

申请号 CN201910456021.7 申请日 -
公开(公告)号 CN110222617A 公开(公告)日 2019-09-10
申请公布号 CN110222617A 申请公布日 2019-09-10
分类号 G06K9/00(2006.01)I; G06K9/62(2006.01)I; G06F17/24(2006.01)I 分类 计算;推算;计数;
发明人 左林翼; 杨龙杰; 盛鹏展; 杨超; 李剑 申请(专利权)人 四川译讯信息科技有限公司
代理机构 成都九鼎天元知识产权代理有限公司 代理人 四川译讯信息科技有限公司
地址 610041 四川省成都市高新区蜀锦路88号31层07号
法律状态 -

摘要

摘要 本发明公开了一种PDF文件修复方法和系统。方法流程为:A.绘制PDF文件中每个字符的字符图像;B.采用OCR识别模型分别对每个字符图像进行字符识别,基于字符识别结果,编制出字符映射表,该字符映射表含字符字型与字符编码的映射关系;C.以字符映射表修复PDF文件的CMAP表。系统包括依次连接的字符扫描模块、OCR识别模块、映射表构建模块和CMAP表修复模块;字符扫描模块绘制PDF文件中的字符图像,OCR识别模块对其进行识别以得到字符字型,映射表构建模块基于字符字型和通用字符编码表构建字符映射表,CMAP表修复模块一字符映射表修复PDF文件的CMAP表。本发明可以从根本上解决PDF文件的文本不可被有效复制的问题,所修复的PDF文件可被一直使用。