一种从合同简体迁移到繁体的光学字符联合训练及识别方法

基本信息

申请号 CN202010485822.9 申请日 -
公开(公告)号 CN111651960A 公开(公告)日 2020-09-11
申请公布号 CN111651960A 申请公布日 2020-09-11
分类号 G06F40/109(2020.01)I 分类 计算;推算;计数;
发明人 谢泽星;吴青昀;徐俊杰 申请(专利权)人 杭州尚尚签网络科技有限公司
代理机构 杭州求是专利事务所有限公司 代理人 杭州尚尚签网络科技有限公司
地址 310012浙江省杭州市西湖区万塘路317号华星世纪大楼2层202房
法律状态 -

摘要

摘要 本发明公开了一种从合同简体迁移到繁体的光学字符联合训练及识别方法,包括:建立多任务字符识别模型;将多任务字符识别模型进行训练,得到训练后的多任务字符识别模型;向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片,得到各子任务的识别结果以及直接解码的识别结果,然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正,得到识别结果。本发明通过多个拟人策略多任务模块联合训练方式加强模型对文字形态特征挖掘,通用简单特征的理解,能够增加模型的鲁棒性,减少训练数据量,加快模型的构件速度。