目标对象用内容过滤方法
基本信息
申请号 | CN202210093056.0 | 申请日 | - |
公开(公告)号 | CN114417820A | 公开(公告)日 | 2022-04-29 |
申请公布号 | CN114417820A | 申请公布日 | 2022-04-29 |
分类号 | G06F40/205(2020.01)I;G06F16/35(2019.01)I;G06K9/62(2022.01)I | 分类 | 计算;推算;计数; |
发明人 | 金虎杰;陈德全 | 申请(专利权)人 | 盟浪可持续数字科技(深圳)有限责任公司 |
代理机构 | 深圳市博太联众专利代理事务所(特殊普通合伙) | 代理人 | 任转英 |
地址 | 518000广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司) | ||
法律状态 | - |
摘要
摘要 | 本发明公开了目标对象用内容过滤方法,涉及文档内容提取技术领域,解决了现有技术不能实现对PDF文档进行针对性分析,导致无法从PDF文档中快速提取有效内容的技术问题;为目标文档匹配设置目标要素,根据目标要素对目标文档进行划分过滤,获取目标内容;本发明在读取目标文档后,结合目标文档的类型标签为其设置目标要素,既可以通过人工设定,也可以通过关联关系进行自动设定,能够满足不同场景下对目标文档的提取过滤要求,使得提取内容更加符合用户需求;本发明中的目标要素包括段落、章节、页眉、页脚等,针对不同类型标签的目标文档,设置了不同目标要素的组合,并为各要素匹配了对应的处理方式,能够保证对目标文档提取的准确性。 |
