PDF图纸文字识别方法、系统以及设备专利查询专利号|摘要-满商公司网

PDF图纸文字识别方法、系统以及设备

基本信息

申请号	CN202010278085.5	申请日	-
公开（公告）号	CN111401312A	公开（公告）日	2020-07-10
申请公布号	CN111401312A	申请公布日	2020-07-10
分类号	G06K9/00(2006.01)I	分类	-
发明人	张东锋;曾雏鹏;李俊波	申请（专利权）人	深圳新致软件有限公司
代理机构	上海正策律师事务所	代理人	深圳新致软件有限公司
地址	518038广东省深圳市
法律状态	-

摘要

本发明提供了一种PDF图纸文字识别方法、系统以及设备，该PDF图纸文字识别方法包括以下步骤：基于深度学习执行光学字符识别步骤；定制化识别和通用识别步骤；以及移动设备低质量图像识别步骤；其中，该基于深度学习执行光学字符识别步骤包括步骤：检测场景中有文字的区域并对区域中的文字进行识别，其中基于CTPN、Seglink、TextBoxes、FTSN、Pixellink以及CRAFT算法执行文本检测；其中基于CNN、CRNN算法进行文字的识别；其中，该定制化识别步骤包括以下步骤：根据PDF中表格文字或者PDF中框架内容识别PDF图纸类型；根据结构化特征提取区域内的内容；以及提取关键区域，通过深度神经网络识别区域中的文字或提取关键文字。