一种文件检测方法及其装置

基本信息

申请号 CN201711344713.X 申请日 -
公开(公告)号 CN107908602A 公开(公告)日 2018-04-13
申请公布号 CN107908602A 申请公布日 2018-04-13
分类号 G06F17/22;G06Q10/10 分类 计算;推算;计数;
发明人 王爽;郑锦光;张梦迪;吴珂皓;张白驹;社会芳 申请(专利权)人 北京文因互联科技有限公司
代理机构 北京中企鸿阳知识产权代理事务所(普通合伙) 代理人 郭鸿雁
地址 100016 北京市朝阳区向军北里28号院圣世一品B5-6A
法律状态 -

摘要

摘要 一种文件检测方法,包括:S1:通过解析二进制指令,将PDF文件的内容解析为带标记的文本、表格和图片,同时记录文字的字体和字号信息,表格和图片的位置信息;S2:根据解析后的文档的字号大小得到相应章节的层级,根据层级的高低配置章节的层级根节点及子节点建立文档章节树;S3:根据监管机构要求披露的信息建立规则执行库;S4:根据监管机构要求披露的信息的章节建立根节点及子节点,并根据相应节点下的规则执行库的信息建立文档规则树;S5:将文档规则树与文档章节树进行匹配,对文本内容按照相应的规则树下的根节点及子节点的规则执行库进行比对;S6:输出文档中与规则执行库不符的内容。