一种基于票据内容和位置信息的文本抽取方法

基本信息

申请号 CN202110119105.9 申请日 -
公开(公告)号 CN112818823A 公开(公告)日 2021-05-18
申请公布号 CN112818823A 申请公布日 2021-05-18
分类号 G06K9/00;G06K9/20;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 分类 计算;推算;计数;
发明人 张书源 申请(专利权)人 金科览智科技(北京)有限公司
代理机构 - 代理人 -
地址 100037 北京市西城区阜成门外大街31号4层409C
法律状态 -

摘要

摘要 本发明提供了一种基于票据内容和位置信息的文本抽取方法,包括以下步骤:S1:图像校正;S2:进行文字检测,检测出文字块;S3:在检测好的文字块上进行文字识别;S4:对文字块进行分类,得到文字块的文字信息和坐标信息;S5:将文字块的文字信息和坐标信息送入神经网络中,输出每个文字块的标签;S6:对相同标签类型的文字块进行匹配链接,输出抽取结果。本发明通过引入了位置信息的textCNN+blocklink的方法,解决了在二维票据中实体抽取的问题,并通引入的位置信息有效提高了文本抽取的准确率。