识别PDF文件中文本框的方法、装置及计算机设备及存储介质

基本信息

申请号 CN202110184633.2 申请日 -
公开(公告)号 CN112818894A 公开(公告)日 2021-05-18
申请公布号 CN112818894A 申请公布日 2021-05-18
分类号 G06K9/00 分类 计算;推算;计数;
发明人 邢振雨 申请(专利权)人 深圳万兴软件有限公司
代理机构 深圳市精英专利事务所 代理人 李翔宇
地址 518000 广东省深圳市南山区粤海街道软件产业基地5栋D座1001
法律状态 -

摘要

摘要 本发明实施例公开了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质,其中方法包括获取目标PDF文件,并从所述目标PDF文件中获取目标对象;解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;对所述预设图形集合进行处理以获得目标预设图形集合;解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。本发明能够识别并提取PDF文件中的文本框。