一种基于关键词拆分技术的文档关键信息提取方法和系统

基本信息

申请号 CN202111052073.1 申请日 -
公开(公告)号 CN113850056A 公开(公告)日 2021-12-28
申请公布号 CN113850056A 申请公布日 2021-12-28
分类号 G06F40/154(2020.01)I;G06F40/258(2020.01)I;G06F40/221(2020.01)I;G06F40/169(2020.01)I 分类 计算;推算;计数;
发明人 佘俊;赵增涛;余少锋;廖崇阳;罗勇 申请(专利权)人 南方电网调峰调频发电有限公司信息通信分公司
代理机构 成都鱼爪智云知识产权代理有限公司 代理人 梁悦敏
地址 511492广东省广州市番禺区东环街番禺大道北555号番禺节能科技园内街天安总部中心1号楼601房
法律状态 -

摘要

摘要 本发明提出了一种基于关键词拆分技术的文档关键信息提取方法和系统,涉及文档关键信息提取领域。该方法包括:将获取的目标文档转换成XML格式文档;基于关键词拆分检测技术对XML格式文档进行关键信息提取。通过获取目标文档并将目标文档转换成XML格式文档;XML为可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言。因此将目标文档转换成XML格式文档,便于后续提取信息。基于关键词拆分检测技术对XML格式文档进行关键信息提取。该步骤中,可以从连续的自然语言文本中,抽取出结构化的关键字段信息。解决文档信息量大且过于繁杂、无法让用户快速获取需要的信息的问题。