基于领域知识模版的表格结构化提取方法

基本信息

申请号 CN201810289621.4 申请日 -
公开(公告)号 CN110347982A 公开(公告)日 2019-10-18
申请公布号 CN110347982A 申请公布日 2019-10-18
分类号 G06F17/24;G06F17/27 分类 计算;推算;计数;
发明人 王博远;陈前力;淡强强;吴雪军 申请(专利权)人 鼎复数据科技(北京)有限公司
代理机构 北京康思博达知识产权代理事务所(普通合伙) 代理人 鼎复数据科技(北京)有限公司
地址 100020 北京市朝阳区北辰世纪中心A座1550
法律状态 -

摘要

摘要 本发明公开了一种基于领域知识模版的表格结构化提取方法,该方法中通过编辑多个领域知识模板,分别用以处理不同类型的待处理表格,在所述领域知识模版中设置有目标表格,即期望抽取处理得到的表格形式;该方法中依次读取待处理表格信息,具体确定处理每个表格所用的领域知识模板;在领域知识模板中还记载有与目标表格相关联的词典,以使得能够快速识别出待处理表格不同表述形式的内容,使之与目标表格相对应;特别地,该领域知识模板是可以可视化编辑,操作者能够实时调整其中的目标表格结构和词典,逐步完善领域知识模板,逐步提高该方法的适应性和准确性。