一种电子文档图文信息还原方法、存储设备及终端
基本信息
申请号 | CN201710607640.2 | 申请日 | - |
公开(公告)号 | CN107451232A | 公开(公告)日 | 2017-12-08 |
申请公布号 | CN107451232A | 申请公布日 | 2017-12-08 |
分类号 | G06F17/30;G06F17/24 | 分类 | 计算;推算;计数; |
发明人 | 邓国盛;周宏锋 | 申请(专利权)人 | 广东顺德德力信息科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 528305 广东省佛山市顺德区容桂容里新发路18号之三 | ||
法律状态 | - |
摘要
摘要 | 本发明公开的一种电子文档图文信息还原方法、存储设备及终端,包括:遍历电子文档中的图文元素;提取每个图文元素的属性,并进行存储;采用聚类算法,将属性相似的元素聚集在一起,形成一个群组;将每个群组内的所有元素进行合并或重组,形成新的复合元素,每一个群组对应一个新的复合元素;获取每个新的复合元素的属性;根据聚类迭代规则,判断本次迭代结果是否符合人类阅读规则;判断聚类迭代是否完毕;将迭代完毕的分层数据进行重组,得到新的图文信息,并进行输出。本发明快速有效,能够按照人类阅读逻辑,将传统的电子文档图文信息进行重组和还原,使得重组和还原结果能进行二次开发利用,适用于电子文档信息提取领域。 |
