基于XML的多页文档处理方法、装置、计算机设备及介质

基本信息

申请号 CN202011479857.8 申请日 -
公开(公告)号 CN112528599A 公开(公告)日 2021-03-19
申请公布号 CN112528599A 申请公布日 2021-03-19
分类号 G06F40/14;G06F40/174;G06F40/18;G06K9/32 分类 计算;推算;计数;
发明人 庄志强;施光辉;陆承丰;王鹤 申请(专利权)人 信号旗智能科技(上海)有限公司
代理机构 - 代理人 -
地址 200120 上海市浦东新区中国(上海)自由贸易试验区纳贤路800号1幢A座8楼A1-3室
法律状态 -

摘要

摘要 本发明涉及表单数据处理领域,公开了一种基于XML的多页文档处理方法、装置、计算机设备及介质,其方法包括:通过光学字符识别程序处理包含表单的多页文档,生成XML数据;根据XML数据构建二维矩阵;根据预设分类识别算法处理二维矩阵和多页文档,生成若干表单分页数据和表单结构信息,一个表单分页数据对应一个表单结构信息;通过自然语言处理模型处理表单单元数据,生成若干表单字段数据;根据表单结构信息和表单字段数据合成目标表单。本发明解决了海关报关系统的制单流程处理效率低、处理成本高的问题。