一种基于OCR预判断的PDF文件转换方法
基本信息
申请号 | CN201811206109.5 | 申请日 | - |
公开(公告)号 | CN109492199A | 公开(公告)日 | 2019-03-19 |
申请公布号 | CN109492199A | 申请公布日 | 2019-03-19 |
分类号 | G06F17/22(2006.01)I; G06K9/20(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 马万炯 | 申请(专利权)人 | 四川译讯信息科技有限公司 |
代理机构 | 成都睿道专利代理事务所(普通合伙) | 代理人 | 四川译讯信息科技有限公司 |
地址 | 610041 四川省成都市高新区蜀锦路88号31层07号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于OCR预判断的PDF文件转换方法,包括以下步骤:解析PDF文件,判断该PDF文件中各页面是否需要进行ocr;针对需要进行ocr的页面进行ocr,得到文本信息;针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息;通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。本发明通过对PDF文件的预解析,提高了PDF文字提取的正确率,在减少不必要的ocr识别的同时保证了文字提取的准确度并提高了PDF文件的转换效率,适用性强,转换效果好。 |
