一种用于OCR模型训练的样本标注方法及系统
基本信息
申请号 | 2020113553817 | 申请日 | - |
公开(公告)号 | CN112288039A | 公开(公告)日 | 2021-01-29 |
申请公布号 | CN112288039A | 申请公布日 | 2021-01-29 |
分类号 | G06K9/62(2006.01)I; | 分类 | 计算;推算;计数; |
发明人 | 宛侠;夏光子;黄贤俊;侯进 | 申请(专利权)人 | 北京深智恒际科技有限公司 |
代理机构 | 北京汇信合知识产权代理有限公司 | 代理人 | 林聪源 |
地址 | 100085北京市海淀区清河西三旗东路6幢2层203室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种用于OCR模型训练的样本标注方法及系统,包括:获取原始样本;从原始样本中选出部分样本,进行标题区域的“画框”和“打字”,并训练得到标题模型;基于标题模型对原始样本进行预处理,得到不同标题的分类样本;从分类样本中选出部分样本,进行样本中所有文本的“画框”,并训练得到初版检测模型;基于初版检测模型对该标题的分类样本进行预处理,得到带有检测框的初版检测分类样本;从初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;基于再版检测模型对该标题的分类样本进行预处理,得到带有检测框的再版检测分类样本;利用识别模型对再版检测分类样本预处理出文本识别样本。 |
