表格识别方法、装置和存储介质

基本信息

申请号 CN201910821308.5 申请日 -
公开(公告)号 CN110532968A 公开(公告)日 2019-12-03
申请公布号 CN110532968A 申请公布日 2019-12-03
分类号 G06K9/00 分类 计算;推算;计数;
发明人 侯绍东;周以晴;熊玉竹 申请(专利权)人 苏州美能华智能科技有限公司
代理机构 苏州谨和知识产权代理事务所(特殊普通合伙) 代理人 叶栋
地址 215123 江苏省苏州市苏州工业园区金鸡湖大道88号7期G1-902单元
法律状态 -

摘要

摘要 本申请涉及一种表格识别方法、装置及存储介质,属于计算机技术领域,该方法包括:根据图片预训练模型获取目标文件中的表格的结构信息,结构信息包括表格的顶点位置和各个顶点的连接关系;通过分组模型对表格中的文本内容以单元格为单位进行分组;通过连接模型将目标文件中同一表格中的各个单元格做连接;根据结构信息、划分得到的文本分组以及识别得到的同一表格中的各个单元格,重新生成单元格的布局;根据重新生成的单元格的布局以及单元格中的内容对单元格进行合并;根据合并后的单元格以及各个单元格中的内容生成目标文件的描述信息,描述信息包括目标文件中的表格的个数,以及表格中各个单元格的位置。解决了现有方案中表格无法识别的问题。