一种文本图像中表格的结构化信息的识别方法及装置

基本信息

申请号 CN202010079924.0 申请日 -
公开(公告)号 CN111259854A 公开(公告)日 2020-06-09
申请公布号 CN111259854A 申请公布日 2020-06-09
分类号 G06K9/00(2006.01)I 分类 计算;推算;计数;
发明人 刘宁;吴志超;王静;胡茜;董婉;申亚男 申请(专利权)人 北京爱医生智慧医疗科技有限公司
代理机构 北京路浩知识产权代理有限公司 代理人 王宇杨
地址 102206北京市昌平区科技园区生命园路9号院1号楼205室
法律状态 -

摘要

摘要 本发明实施例提供一种文本图像中表格的结构化信息的识别方法及装置,所述方法包括:在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;确定所述同一个表格内的初始单元格;确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;遍历所有相邻两个初始单元格,并根据合并结果确定结构化信息的识别结果。所述装置执行上述方法。本发明实施例提供的方法及装置,能够自动和准确地识别文本图像中表格的结构化信息。