一种基于OCR的论文封皮自动识别系统及方法

基本信息

申请号 CN201510354849.3 申请日 -
公开(公告)号 CN105046253B 公开(公告)日 2018-05-11
申请公布号 CN105046253B 申请公布日 2018-05-11
分类号 G06K9/20 分类 计算;推算;计数;
发明人 张惠斌;王长征;赵正桥;蔡彩云;刘文晓 申请(专利权)人 山西同方知网数字出版技术有限公司
代理机构 北京天奇智新知识产权代理有限公司 代理人 山西同方知网数字出版技术有限公司
地址 030006 山西省太原市高新区产业路48号新岛科技园D座
法律状态 -

摘要

摘要 本发明公开了一种基于OCR的论文封皮自动识别系统,模板设计模块,设计封皮模板并提供信息给模块;图像处理模块,通过OCR对图像进行彩色二值化、去黑边、纠偏处理;字符数据采集模块,利用OCR提取封皮字的信息,为定位区域找到对应的题录信息提供数据支持;数据定位模块,将所述字符数据采集模块采集到的字信息进行加工处理,使字信息成为题录项对应的题录信息;重识别模块,重新识别字符数据采集模块过滤掉的题录信息,该题录信息包含标点符号和空格;数据整理模块,过滤并整合题录信息。本发明通过上述六大模块可以达到自动在封皮上找到所需要的信息,达到了自动化处理要求,这样解放了人力,提高了工作效率。