基于XML的多页文档处理方法、装置、计算机设备及介质
基本信息
申请号 | CN202011479857.8 | 申请日 | - |
公开(公告)号 | CN112528599A | 公开(公告)日 | 2021-03-19 |
申请公布号 | CN112528599A | 申请公布日 | 2021-03-19 |
分类号 | G06F40/14;G06F40/174;G06F40/18;G06K9/32 | 分类 | 计算;推算;计数; |
发明人 | 庄志强;施光辉;陆承丰;王鹤 | 申请(专利权)人 | 信号旗智能科技(上海)有限公司 |
代理机构 | - | 代理人 | - |
地址 | 200120 上海市浦东新区中国(上海)自由贸易试验区纳贤路800号1幢A座8楼A1-3室 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及表单数据处理领域,公开了一种基于XML的多页文档处理方法、装置、计算机设备及介质,其方法包括:通过光学字符识别程序处理包含表单的多页文档,生成XML数据;根据XML数据构建二维矩阵;根据预设分类识别算法处理二维矩阵和多页文档,生成若干表单分页数据和表单结构信息,一个表单分页数据对应一个表单结构信息;通过自然语言处理模型处理表单单元数据,生成若干表单字段数据;根据表单结构信息和表单字段数据合成目标表单。本发明解决了海关报关系统的制单流程处理效率低、处理成本高的问题。 |
