一种基于机器学习的表格抽取方法

基本信息

申请号 CN202010219328.8 申请日 -
公开(公告)号 CN111401010A 公开(公告)日 2020-07-10
申请公布号 CN111401010A 申请公布日 2020-07-10
分类号 G06F40/154(2020.01)I 分类 -
发明人 李鑫;郑磊;鲍琦 申请(专利权)人 苏州机数芯微科技有限公司
代理机构 合肥市长远专利代理事务所(普通合伙) 代理人 苏州机数芯微科技有限公司
地址 215000江苏省苏州市苏州工业园区金鸡湖大道99号苏州纳米城1幢505-3室
法律状态 -

摘要

摘要 本发明提出的一种基于机器学习的表格抽取方法,包括:对原始xml文件进行预处理,获得预先选择的自动提取工具可识别的新xml文件;将新xml文件通过自动提取工具进行识别并转换成python可识别的二维列表;将表格标题和脚注从二维列表中分离出来,然后识别跨列子标题,并把子标题填充到对应的列;通过机器学习,区分出表头所在行的范围,然后合并表头;对跨行数据进行合并,获得最终表格数据。本发明实现了基于机器学习从格式为xml的文件中抽取清洗表格内容,保证了对xml文件信息的精确和完整的抽取。