一种基于对比学习的文本识别方法与系统
基本信息
申请号 | CN202111395021.4 | 申请日 | - |
公开(公告)号 | CN113920296B | 公开(公告)日 | 2022-07-15 |
申请公布号 | CN113920296B | 申请公布日 | 2022-07-15 |
分类号 | G06V10/22(2022.01)I;G06V30/10(2022.01)I;G06V10/74(2022.01)I;G06V10/82(2022.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 刘彩玲;吴婷婷;赵建强;高志鹏;汪泰伸;陈德意 | 申请(专利权)人 | 厦门市美亚柏科信息股份有限公司 |
代理机构 | 厦门福贝知识产权代理事务所(普通合伙) | 代理人 | - |
地址 | 361000福建省厦门市思明区软件园二期观日路12号102-402单元 | ||
法律状态 | - |
摘要
摘要 | 本发明给出了一种基于对比学习的文本识别方法与系统,包括无标签的文本图像样本,对其中每个样本进行数据增强输入卷积网络进行识别训练生成识别模型,再基于所述识别模型构建基本编码器来计算并输出特征序列;将所述特征序列输入实例映射函数生成对应的实例再映射为多个子实例,将所有的子实例作为对比损失函数中的子元素进行对比学习,将结果反馈到所述卷积网络用于更新所述卷积网络;获取包含文本信息的有标签的文本图像样本输入所述基本编码器,对所述卷积网络的参数进行调节直到所述识别模型收敛。本方法将对比学习应用于序列的各个元素,充分利用无标注数据学习有效的表征信息,再基于自监督对比学习的方法进行建模,显著提高了识别效果。 |
