基于特征关联的公文文本识别方法和装置

基本信息

申请号 CN202011551817.X 申请日 -
公开(公告)号 CN112507968A 公开(公告)日 2021-03-16
申请公布号 CN112507968A 申请公布日 2021-03-16
分类号 G06F40/289(2020.01)I;G06K9/00(2006.01)I;G06F40/12(2020.01)I;G06F40/216(2020.01)I 分类 计算;推算;计数;
发明人 李巧;朱永强 申请(专利权)人 成都网安科技发展有限公司
代理机构 成都极刻智慧知识产权代理事务所(普通合伙) 代理人 唐维虎
地址 610000四川省成都市青羊区广富路218号G区6栋C座
法律状态 -

摘要

摘要 本申请提供的基于特征关联的公文文本识别方法和装置,涉及文本识别技术领域。在本申请中,首先,基于公文文本具有的识别要素对待识别文本进行识别处理得到每一个识别要素的识别结果。其次,基于得到的识别结果构建目标文本向量。然后,基于目标位置信息和权重系数分别对目标文本向量进行更新处理得到第一文本向量和第二文本向量,其中,目标位置信息包括目标文本向量中每一个第一识别值对应的识别要素在待识别文本中的位置信息,权重系数基于对公文文本样本进行处理得到。最后,基于第一文本向量、第二文本向量和文本概率阈值,确定待识别文本是否属于公文文本。基于上述方法,可以改善基于现有技术难以对公文文本进行有效识别的问题。