一种基于机器学习的表格抽取方法
基本信息
申请号 | CN202010219328.8 | 申请日 | - |
公开(公告)号 | CN111401010A | 公开(公告)日 | 2020-07-10 |
申请公布号 | CN111401010A | 申请公布日 | 2020-07-10 |
分类号 | G06F40/154(2020.01)I | 分类 | - |
发明人 | 李鑫;郑磊;鲍琦 | 申请(专利权)人 | 苏州机数芯微科技有限公司 |
代理机构 | 合肥市长远专利代理事务所(普通合伙) | 代理人 | 苏州机数芯微科技有限公司 |
地址 | 215000江苏省苏州市苏州工业园区金鸡湖大道99号苏州纳米城1幢505-3室 | ||
法律状态 | - |
摘要
摘要 | 本发明提出的一种基于机器学习的表格抽取方法,包括:对原始xml文件进行预处理,获得预先选择的自动提取工具可识别的新xml文件;将新xml文件通过自动提取工具进行识别并转换成python可识别的二维列表;将表格标题和脚注从二维列表中分离出来,然后识别跨列子标题,并把子标题填充到对应的列;通过机器学习,区分出表头所在行的范围,然后合并表头;对跨行数据进行合并,获得最终表格数据。本发明实现了基于机器学习从格式为xml的文件中抽取清洗表格内容,保证了对xml文件信息的精确和完整的抽取。 |
