智能文档处理方法、系统、计算机设备及介质

基本信息

申请号 CN202111048195.3 申请日 -
公开(公告)号 CN113761840A 公开(公告)日 2021-12-07
申请公布号 CN113761840A 申请公布日 2021-12-07
分类号 G06F40/143(2020.01)I;G06F16/35(2019.01)I;G06F16/81(2019.01)I;G06F40/166(2020.01)I;G06F40/258(2020.01)I 分类 计算;推算;计数;
发明人 郭春磊;马丽霞;夏义鹏;王骁;李涛 申请(专利权)人 中信建投证券股份有限公司
代理机构 北京品源专利代理有限公司 代理人 李礼
地址 100010北京市东城区朝内大街188号鸿安国际大厦
法律状态 -

摘要

摘要 本发明公开了一种智能文档处理方法、系统、计算机设备及介质,该方法包括:获取数据源文档的xml文件,xml文件包括至少一个段落节点,段落节点中包括至少一个目标文本节点;对xml文件进行标准化处理,得到目标xml文件,标准化处理包括依次执行的目标文本节点合并、目标文本节点拆分和添加节点标识符;对目标xml文件进行压缩处理,得到标准化数据源文档;对标准化数据源文档进行数据提取,并根据数据提取结果建立文档数据库。本发明通过对数据源文档进行标准化处理及数据提取建立数据源文档数据库,为智能化文档编辑操作提供数据基础,有利于节省人工成本和时间成本,提高文档编辑效率和准确性。