PDF图纸文字识别方法、系统以及设备

基本信息

申请号 CN202010278085.5 申请日 -
公开(公告)号 CN111401312A 公开(公告)日 2020-07-10
申请公布号 CN111401312A 申请公布日 2020-07-10
分类号 G06K9/00(2006.01)I 分类 -
发明人 张东锋;曾雏鹏;李俊波 申请(专利权)人 深圳新致软件有限公司
代理机构 上海正策律师事务所 代理人 深圳新致软件有限公司
地址 518038广东省深圳市
法律状态 -

摘要

摘要 本发明提供了一种PDF图纸文字识别方法、系统以及设备,该PDF图纸文字识别方法包括以下步骤:基于深度学习执行光学字符识别步骤;定制化识别和通用识别步骤;以及移动设备低质量图像识别步骤;其中,该基于深度学习执行光学字符识别步骤包括步骤:检测场景中有文字的区域并对区域中的文字进行识别,其中基于CTPN、Seglink、TextBoxes、FTSN、Pixellink以及CRAFT算法执行文本检测;其中基于CNN、CRNN算法进行文字的识别;其中,该定制化识别步骤包括以下步骤:根据PDF中表格文字或者PDF中框架内容识别PDF图纸类型;根据结构化特征提取区域内的内容;以及提取关键区域,通过深度神经网络识别区域中的文字或提取关键文字。