一种基于文档图像版式自动分析与判断的方法

基本信息

申请号 CN201711143809.X 申请日 -
公开(公告)号 CN107798355A 公开(公告)日 2018-03-13
申请公布号 CN107798355A 申请公布日 2018-03-13
分类号 G06K9/62;G06K9/34 分类 计算;推算;计数;
发明人 孙鑫;王长征;刘文晓;赵胜男 申请(专利权)人 山西同方知网数字出版技术有限公司
代理机构 北京天奇智新知识产权代理有限公司 代理人 山西同方知网数字出版技术有限公司
地址 030006 山西省太原市高新区产业路48号新岛科技园D座
法律状态 -

摘要

摘要 本发明公开了一种基于文档图像版式自动分析与判断的方法,包括:对图像进行预处理;对文档图像中文字区域水平方向进行自动检测;对文档图像中文字区域垂直方向进行自动检测;将文档图像中文字区域以行或列的属性为基准,并根据水平方向和垂直方向的属性检测,作出一系列的决策与分类;根据行和列在算法上的决策与分类,判断文档图像中的版式。本发明通过文字区域自动检测、算法分析、横版竖版结果判断,以达到自动化处理的要求,将结果分为横版、竖版、无法判断三类,版式判断准确无误;其中,对于特殊图像给出无法判断的结果。版式分析为下一步文字识别提供了正确的识别条件和方向,提高了文字识别的正确率,增加了结果的准确性。