抽取表单文档中信息的方法、电子设备和计算机可读介质
基本信息
申请号 | CN202110203157.4 | 申请日 | - |
公开(公告)号 | CN112560504B | 公开(公告)日 | 2021-06-11 |
申请公布号 | CN112560504B | 申请公布日 | 2021-06-11 |
分类号 | G06F40/30 | 分类 | 计算;推算;计数; |
发明人 | 吴勇民 | 申请(专利权)人 | 北京庖丁科技有限公司 |
代理机构 | 北京卫智畅科专利代理事务所(普通合伙) | 代理人 | 陈佳 |
地址 | 100091 北京市海淀区厢黄旗2号楼2层X06-205室 | ||
法律状态 | - |
摘要
摘要 | 本公开的实施例公开了抽取表单文档中信息的方法、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取表单文档和预先确定的键值;基于预先确定的键值,生成键值语义序列;将表单文档和键值语义序列输入预先确定的信息生成模型,以得到目标信息序列和目标触发词序列;将目标信息序列和目标触发词序列推送至具有显示功能的目标设备,以及控制目标设备显示目标信息序列。这种方法将键值表示为键值语义序列,能够显式表示该键值的语义信息,从而可以直接根据键值语义序列得到表单文档中待抽取的目标信息序列的语义信息。引入目标触发词序列,能够解释键值语义序列,同时指示出目标信息序列在表单文档中的位置,提升了可抽取的目标信息序列的准确度,方便用户抽取表单文档中的关键信息。 |
