一种基于机器学习的表格提取方法和系统

基本信息

申请号 CN202011315774.5 申请日 -
公开(公告)号 CN112241730A 公开(公告)日 2021-01-19
申请公布号 CN112241730A 申请公布日 2021-01-19
分类号 G06K9/00(2006.01)I 分类 计算;推算;计数;
发明人 刘洋;侯启予 申请(专利权)人 杭州投知信息技术有限公司
代理机构 北京棘龙知识产权代理有限公司 代理人 杭州投知信息技术有限公司
地址 310000浙江省杭州市余杭区五常街道文一西路998号5幢602室
法律状态 -

摘要

摘要 本发明公开了一种基于机器学习的表格提取方法和系统,所述方法包括:获取表格模板集;根据表格模板集生成第一实例;获取第一实例中表格的单元格坐标;随机隐藏表格的边框线,获得第二实例;基于单元格坐标为第二实例的表格打标签;基于实例分割模型对第二实例进行训练,获得预测模型;基于预测模型分析预测文档;提取单元格坐标区域内的单元格内容;根据单元格坐标恢复预测表格的结构;基于单元格内容、单元格坐标和预测表格的结构,结构化预测表格。预测模型可以识别预测文档中的单元格及其坐标,从而获得复杂单元格的区域和表格的结构,再提取单元格的内容,使预测表格结构化。