训练数据生成方法和装置、以及模型的训练方法和装置
基本信息
申请号 | CN201910211469.2 | 申请日 | - |
公开(公告)号 | CN109978044B | 公开(公告)日 | 2021-03-19 |
申请公布号 | CN109978044B | 申请公布日 | 2021-03-19 |
分类号 | G06K9/62(2006.01)I;G06K9/34(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 戴亦斌;谢春鸿 | 申请(专利权)人 | 广州云测信息技术有限公司 |
代理机构 | 北京国昊天诚知识产权代理有限公司 | 代理人 | 刘昕;南霆 |
地址 | 510260广东省广州市中新广州知识城凤凰三路8号2号楼2016房 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种针对文本识别模型的训练数据生成方法及装置,以及一种针对文本识别模型的训练数据生成方法及装置,在收集训练数据时,结合文本控件对于文本区域的全面覆盖,以及布局识别对于图像元素进行无多余范围的准确识别,可以从包含文本的样本图像中,较为准确地裁剪出包含文本的目标区域,以及对应的文本内容,通过这种方式可以较为高效、准确地收集训练数据。而在进行模型训练时,可以以单行文本作为辅助训练文本,通过将单行文本附着在模拟应用场景的背景图像中,从而裁剪出包含单行文本的辅助训练图像。据此,可以将模拟出的辅助训练数据和实际收集到的训练数据进行结合,对文本识别模型进行训练,进而提高训练后模型的性能。 |
