一种扫描试卷版面分析的样本制作及识别方法

基本信息

申请号 CN202011514989.X 申请日 -
公开(公告)号 CN112597878A 公开(公告)日 2021-04-02
申请公布号 CN112597878A 申请公布日 2021-04-02
分类号 G06K9/34(2006.01)I;G06K9/38(2006.01)I;G06K9/00(2006.01)I;G06T11/40(2006.01)I 分类 计算;推算;计数;
发明人 吕达;汤敏;陈家海;叶家鸣;吴波 申请(专利权)人 安徽七天网络科技有限公司
代理机构 安徽申策知识产权代理事务所(普通合伙) 代理人 程艳梅
地址 230000安徽省合肥市新站区铜陵北路与颍河路交口新站总部经济大厦B楼1201室
法律状态 -

摘要

摘要 本发明涉及人工智能ocr版面分析领域,且公开了一种通过解析修改word的officexml自动标注word,然后转成图片通过图像处理方法获取坐标,将未标注的word转成图片来仿造扫描试卷样本。本发明使用了一种多分枝的DB分割算法用以检测扫描试卷中的各个类别结构。其特征在于:包含以下几个步骤,通过解析修改word的officexml标注各个类别得到标注word,人工检查后修改officexml恢复成未标注的word,将标注的word及对应的未标注word随机转成各样大小的图片并通过图像处理方法法获取标注图片相关结构元素位置的坐标,通过训练多个分枝的DB分割算法训练出可以检测出各个结构类别的版面分析算法模型。本发明解决了样本难获取及标注的问题,节省大量的人工成本,并且模型算法精度高速度快。