一种用于期刊PDF文件中文章内容的解析方法

基本信息

申请号 CN201810700654.3 申请日 -
公开(公告)号 CN108959254A 公开(公告)日 2018-12-07
申请公布号 CN108959254A 申请公布日 2018-12-07
分类号 G06F17/27;G06F17/22 分类 计算;推算;计数;
发明人 胡利鹏 申请(专利权)人 中教汇据(北京)科技有限公司
代理机构 北京智客联合知识产权代理事务所(特殊普通合伙) 代理人 中教汇据(北京)科技有限公司
地址 102400 北京市房山区长阳镇绿地启航国际14号楼西楼1914
法律状态 -

摘要

摘要 本发明属于内容解析方法,具体涉及一种用于期刊PDF文件中文章内容的解析方法。它包括:解析参数预设值的步骤;读取PDF文字内容的步骤;整理并接合的步骤;以及形成文章列表的步骤。本申请的显著效果是:本发明提供了一种用于期刊PDF文件中文章内容的解析方法,抽取文章内容片段:标题、作者、单位信息、摘要、关键词、中图分类号、文献标志码、文章编号、正文、参考文献。解析发现分栏、分隔的内容片段、顺序转接的接合文章内容。对关键词临近的个别标点乱码具有容错处理,对大部分常规格式期刊中文献文章片段具有识别处理。