电子文件的页眉页脚识别方法、装置、设备和介质
基本信息
申请号 | CN202011262354.5 | 申请日 | - |
公开(公告)号 | CN112329426A | 公开(公告)日 | 2021-02-05 |
申请公布号 | CN112329426A | 申请公布日 | 2021-02-05 |
分类号 | G06F40/194(2020.01)I;G06F16/903(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 王雪峰;林好;谢浩 | 申请(专利权)人 | 北京方正印捷数码技术有限公司 |
代理机构 | 北京同立钧成知识产权代理有限公司 | 代理人 | 张宁;臧建明 |
地址 | 100089北京市海淀区上地五街9号1号方正大厦211 | ||
法律状态 | - |
摘要
摘要 | 本申请提供一种电子文件的页眉页脚识别方法、装置、设备和介质,通过获取待分析的两个文件,两个文件中的一个文件是基于两个文件中的另一个文件得到的;之后对文件集合中的每一文件中跨页的字符进行多次剔除处理,得到每一文件中跨页的每一剩余字符串;确定文件集合中一个文件中跨页的每一剩余字符串、文件集合中另一个文件中跨页的每一剩余字符串,两者之间的相似度;确定各相似度中的最大相似度,并确定每一文件中跨页中与最大相似度对应的剔除掉的字符,为每一文件中跨页的页眉页脚,重复上述步骤对每一跨页进行识别。通过上述方法,可以提高页眉页脚识别的速度,节省系统占用资源,提高识别的准确度。 |
