一种基于OCR预判断的PDF文件转换方法

基本信息

申请号 CN201811206109.5 申请日 -
公开(公告)号 CN109492199A 公开(公告)日 2019-03-19
申请公布号 CN109492199A 申请公布日 2019-03-19
分类号 G06F17/22(2006.01)I; G06K9/20(2006.01)I 分类 计算;推算;计数;
发明人 马万炯 申请(专利权)人 四川译讯信息科技有限公司
代理机构 成都睿道专利代理事务所(普通合伙) 代理人 四川译讯信息科技有限公司
地址 610041 四川省成都市高新区蜀锦路88号31层07号
法律状态 -

摘要

摘要 本发明公开了一种基于OCR预判断的PDF文件转换方法,包括以下步骤:解析PDF文件,判断该PDF文件中各页面是否需要进行ocr;针对需要进行ocr的页面进行ocr,得到文本信息;针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息;通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。本发明通过对PDF文件的预解析,提高了PDF文字提取的正确率,在减少不必要的ocr识别的同时保证了文字提取的准确度并提高了PDF文件的转换效率,适用性强,转换效果好。