一种PDF文件类别判定方法及文字提取方法

基本信息

申请号 CN201811540758.9 申请日 -
公开(公告)号 CN109739981A 公开(公告)日 2019-05-10
申请公布号 CN109739981A 申请公布日 2019-05-10
分类号 G06F16/35(2019.01)I 分类 计算;推算;计数;
发明人 马万炯; 陈俊周; 杨龙杰; 左林翼; 李剑 申请(专利权)人 四川译讯信息科技有限公司
代理机构 成都九鼎天元知识产权代理有限公司 代理人 四川译讯信息科技有限公司
地址 610041 四川省成都市高新区蜀锦路88号31层07号
法律状态 -

摘要

摘要 本发明公开了一种PDF文件类别判定方法及文字提取方法,类别判定方法包括:根据制作程序判定类别的步骤、根据文件字体判定类别的步骤、根据文件文档结构判定类别的步骤、根据CMAP字符映射表判定类别的步骤和根据文件包含的图片的信息判定类别的步骤。文字提取方法在判定出文件类别后,选择对应与文件类别的文字提取方法识别和提取文件中的文字。本发明采用逐级判定的方式,可对所有PDF文件的类别进行准确、快速的判定,判定效率高、消耗资源少,通用性强。