一种基于机器学习的表格提取方法和系统
基本信息
申请号 | CN202011315774.5 | 申请日 | - |
公开(公告)号 | CN112241730A | 公开(公告)日 | 2021-01-19 |
申请公布号 | CN112241730A | 申请公布日 | 2021-01-19 |
分类号 | G06K9/00(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 刘洋;侯启予 | 申请(专利权)人 | 杭州投知信息技术有限公司 |
代理机构 | 北京棘龙知识产权代理有限公司 | 代理人 | 杭州投知信息技术有限公司 |
地址 | 310000浙江省杭州市余杭区五常街道文一西路998号5幢602室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于机器学习的表格提取方法和系统,所述方法包括:获取表格模板集;根据表格模板集生成第一实例;获取第一实例中表格的单元格坐标;随机隐藏表格的边框线,获得第二实例;基于单元格坐标为第二实例的表格打标签;基于实例分割模型对第二实例进行训练,获得预测模型;基于预测模型分析预测文档;提取单元格坐标区域内的单元格内容;根据单元格坐标恢复预测表格的结构;基于单元格内容、单元格坐标和预测表格的结构,结构化预测表格。预测模型可以识别预测文档中的单元格及其坐标,从而获得复杂单元格的区域和表格的结构,再提取单元格的内容,使预测表格结构化。 |
