一种电子文档图文信息还原方法、存储设备及终端

基本信息

申请号 CN201710607640.2 申请日 -
公开(公告)号 CN107451232A 公开(公告)日 2017-12-08
申请公布号 CN107451232A 申请公布日 2017-12-08
分类号 G06F17/30;G06F17/24 分类 计算;推算;计数;
发明人 邓国盛;周宏锋 申请(专利权)人 广东顺德德力信息科技有限公司
代理机构 - 代理人 -
地址 528305 广东省佛山市顺德区容桂容里新发路18号之三
法律状态 -

摘要

摘要 本发明公开的一种电子文档图文信息还原方法、存储设备及终端,包括:遍历电子文档中的图文元素;提取每个图文元素的属性,并进行存储;采用聚类算法,将属性相似的元素聚集在一起,形成一个群组;将每个群组内的所有元素进行合并或重组,形成新的复合元素,每一个群组对应一个新的复合元素;获取每个新的复合元素的属性;根据聚类迭代规则,判断本次迭代结果是否符合人类阅读规则;判断聚类迭代是否完毕;将迭代完毕的分层数据进行重组,得到新的图文信息,并进行输出。本发明快速有效,能够按照人类阅读逻辑,将传统的电子文档图文信息进行重组和还原,使得重组和还原结果能进行二次开发利用,适用于电子文档信息提取领域。