一种基于国产CPU实现公文版面分析的方法

基本信息

申请号 CN202111318867.8 申请日 -
公开(公告)号 CN114140809A 公开(公告)日 2022-03-04
申请公布号 CN114140809A 申请公布日 2022-03-04
分类号 G06V30/414(2022.01)I;G06V30/42(2022.01)I;G06V30/19(2022.01)I;G06N3/04(2006.01)I;G06K9/62(2022.01)I 分类 计算;推算;计数;
发明人 段京峰;董桂森;刘毅;李淑圣;卢则兴 申请(专利权)人 浪潮软件集团有限公司
代理机构 济南信达专利事务所有限公司 代理人 郗艳荣
地址 250100山东省济南市高新区科航路2877号
法律状态 -

摘要

摘要 本发明特别涉及一种基于国产CPU实现公文版面分析的方法。该基于国产CPU实现公文版面分析的方法,对公文图片进行特征提取,并抹去公文文字特征信息,对抹去公文文字特征信息后的行提取行高、横向起点和横向终点三个特征形成二维张量,输入已训练好的分类模型中,判断公文文种;获取到公文文种后,将图片输入针对该文种训练的检测神经网络,利用目标检测技术抓出公文域所在位置信息。该基于国产CPU实现公文版面分析的方法,能够自动识别公文文种,抓取出公文中的公文域并进行标注分类,同时采用三种模型采用投票机制确定公文文种,将不同文种的公文图片输入不同的检测神经网络,大幅提高了公文版面分析的精准度。