一种数字档案智能分类的装置及方法

基本信息

申请号 CN202010736156.1 申请日 -
公开(公告)号 CN111860524A 公开(公告)日 2020-10-30
申请公布号 CN111860524A 申请公布日 2020-10-30
分类号 G06K9/34(2006.01)I 分类 计算;推算;计数;
发明人 陈恒生;郑莹斌;叶浩 申请(专利权)人 上海兑观信息科技技术有限公司
代理机构 上海互顺专利代理事务所(普通合伙) 代理人 上海兑观信息科技技术有限公司
地址 201207上海市浦东新区中国(上海)自由贸易试验区郭守敬路498号6幢2层15202、15201、15203室
法律状态 -

摘要

摘要 本发明适用于数字档案分类处理技术领域,提供了一种数字档案智能分类的装置及方法,通过设置数据转换模块、OCR识别模块、OCR后处理模块、标题提取模块、全文提取模块和特征提取模块,本发明引入了OCR技术,利用OCR技术统一获得了图像或非图像数字档案的文本内容,提供了一种标题提取方法,通过标题提取模块从OCR的结果中提取出文档标题,作为分类的一个重要输入,利用一个高度灵活的规则引擎作为特征提取模块,可以通过配置规则,提取出目标档案的各类特征以及其组合特征,从而可以达到高精度的分类结果。