训练数据生成方法及系统
基本信息
申请号 | CN202011378838.6 | 申请日 | - |
公开(公告)号 | CN112200158A | 公开(公告)日 | 2021-01-08 |
申请公布号 | CN112200158A | 申请公布日 | 2021-01-08 |
分类号 | G06K9/00(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 豆浩斌;陈博;朱风云 | 申请(专利权)人 | 北京灵伴即时智能科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 100083北京市海淀区王庄路1号院2号楼9层10-A1-3 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种训练数据生成系统,包括文本生成器、版式生成器、文本渲染器、图表渲染器、噪声添加器、形变添加器、标注生成器、文档图像样本库;文本渲染器选取文本行并将其渲染至文本行位置区域;图表渲染器将图表元素渲染至图表元素的位置区域;标注生成器生成版式分析标注信息、文本定位及识别标注信息。此外,本发明还公开了一种训练数据生成方法。本发明考虑了文档图像产生过程中的各种因素,并将因素模块化、参数化、可配置化,能够自动生成应用于文档图像分析与识别系统的训练样本,合成得到的文档图像形式丰富、效果逼真,且整体灵活可调、扩展性强,还可以自动完成文档图像各级信息的标注,提供完整标注的训练数据。 |
