一种用于期刊PDF文件中文章内容的解析方法
基本信息
申请号 | CN201810700654.3 | 申请日 | - |
公开(公告)号 | CN108959254A | 公开(公告)日 | 2018-12-07 |
申请公布号 | CN108959254A | 申请公布日 | 2018-12-07 |
分类号 | G06F17/27;G06F17/22 | 分类 | 计算;推算;计数; |
发明人 | 胡利鹏 | 申请(专利权)人 | 中教汇据(北京)科技有限公司 |
代理机构 | 北京智客联合知识产权代理事务所(特殊普通合伙) | 代理人 | 中教汇据(北京)科技有限公司 |
地址 | 102400 北京市房山区长阳镇绿地启航国际14号楼西楼1914 | ||
法律状态 | - |
摘要
摘要 | 本发明属于内容解析方法,具体涉及一种用于期刊PDF文件中文章内容的解析方法。它包括:解析参数预设值的步骤;读取PDF文字内容的步骤;整理并接合的步骤;以及形成文章列表的步骤。本申请的显著效果是:本发明提供了一种用于期刊PDF文件中文章内容的解析方法,抽取文章内容片段:标题、作者、单位信息、摘要、关键词、中图分类号、文献标志码、文章编号、正文、参考文献。解析发现分栏、分隔的内容片段、顺序转接的接合文章内容。对关键词临近的个别标点乱码具有容错处理,对大部分常规格式期刊中文献文章片段具有识别处理。 |
