一种表格换行换页的分析方法及装置
基本信息
申请号 | CN201811304030.6 | 申请日 | - |
公开(公告)号 | CN109460730A | 公开(公告)日 | 2019-03-12 |
申请公布号 | CN109460730A | 申请公布日 | 2019-03-12 |
分类号 | G06K9/00(2006.01)I; G06F16/332(2019.01)I; G06F16/36(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 李鹏辉; 竺晨曦; 邱锡鹏 | 申请(专利权)人 | 上海犀语科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 200082 上海市杨浦区伟德路6号1005-18室 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种表格换行换页的分析方法,包括:通过专家经验总结规则判断明确的换行换页情况;利用深度学习模型,获取标注语料;根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。实施上述方法的装置,包括:用于通过专家经验总结规则判断明确的换行换页情况的换行换页情况判断模块;标注语料获取模块,用于利用深度学习模型,获取标注语料的标注语料获取模块;用于根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并的单元格合并判断模块。本发明利用深度学习模型以挖掘表格中蕴含的语义信息,换行换页场景中,能够精确分析相邻两个单元格是否能够合并的情况。 |
