训练数据生成方法及系统

基本信息

申请号 CN202011378838.6 申请日 -
公开(公告)号 CN112200158A 公开(公告)日 2021-01-08
申请公布号 CN112200158A 申请公布日 2021-01-08
分类号 G06K9/00(2006.01)I 分类 计算;推算;计数;
发明人 豆浩斌;陈博;朱风云 申请(专利权)人 北京灵伴即时智能科技有限公司
代理机构 - 代理人 -
地址 100083北京市海淀区王庄路1号院2号楼9层10-A1-3
法律状态 -

摘要

摘要 本发明公开了一种训练数据生成系统,包括文本生成器、版式生成器、文本渲染器、图表渲染器、噪声添加器、形变添加器、标注生成器、文档图像样本库;文本渲染器选取文本行并将其渲染至文本行位置区域;图表渲染器将图表元素渲染至图表元素的位置区域;标注生成器生成版式分析标注信息、文本定位及识别标注信息。此外,本发明还公开了一种训练数据生成方法。本发明考虑了文档图像产生过程中的各种因素,并将因素模块化、参数化、可配置化,能够自动生成应用于文档图像分析与识别系统的训练样本,合成得到的文档图像形式丰富、效果逼真,且整体灵活可调、扩展性强,还可以自动完成文档图像各级信息的标注,提供完整标注的训练数据。