基于领域知识模版的表格结构化提取方法
基本信息
申请号 | CN201810289621.4 | 申请日 | - |
公开(公告)号 | CN110347982A | 公开(公告)日 | 2019-10-18 |
申请公布号 | CN110347982A | 申请公布日 | 2019-10-18 |
分类号 | G06F17/24;G06F17/27 | 分类 | 计算;推算;计数; |
发明人 | 王博远;陈前力;淡强强;吴雪军 | 申请(专利权)人 | 鼎复数据科技(北京)有限公司 |
代理机构 | 北京康思博达知识产权代理事务所(普通合伙) | 代理人 | 鼎复数据科技(北京)有限公司 |
地址 | 100020 北京市朝阳区北辰世纪中心A座1550 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于领域知识模版的表格结构化提取方法,该方法中通过编辑多个领域知识模板,分别用以处理不同类型的待处理表格,在所述领域知识模版中设置有目标表格,即期望抽取处理得到的表格形式;该方法中依次读取待处理表格信息,具体确定处理每个表格所用的领域知识模板;在领域知识模板中还记载有与目标表格相关联的词典,以使得能够快速识别出待处理表格不同表述形式的内容,使之与目标表格相对应;特别地,该领域知识模板是可以可视化编辑,操作者能够实时调整其中的目标表格结构和词典,逐步完善领域知识模板,逐步提高该方法的适应性和准确性。 |
