电子文件的页眉页脚识别方法、装置、设备和介质

基本信息

申请号 CN202011262354.5 申请日 -
公开(公告)号 CN112329426A 公开(公告)日 2021-02-05
申请公布号 CN112329426A 申请公布日 2021-02-05
分类号 G06F40/194(2020.01)I;G06F16/903(2019.01)I 分类 计算;推算;计数;
发明人 王雪峰;林好;谢浩 申请(专利权)人 北京方正印捷数码技术有限公司
代理机构 北京同立钧成知识产权代理有限公司 代理人 张宁;臧建明
地址 100089北京市海淀区上地五街9号1号方正大厦211
法律状态 -

摘要

摘要 本申请提供一种电子文件的页眉页脚识别方法、装置、设备和介质,通过获取待分析的两个文件,两个文件中的一个文件是基于两个文件中的另一个文件得到的;之后对文件集合中的每一文件中跨页的字符进行多次剔除处理,得到每一文件中跨页的每一剩余字符串;确定文件集合中一个文件中跨页的每一剩余字符串、文件集合中另一个文件中跨页的每一剩余字符串,两者之间的相似度;确定各相似度中的最大相似度,并确定每一文件中跨页中与最大相似度对应的剔除掉的字符,为每一文件中跨页的页眉页脚,重复上述步骤对每一跨页进行识别。通过上述方法,可以提高页眉页脚识别的速度,节省系统占用资源,提高识别的准确度。