一种敏感文本识别的系统和方法

基本信息

申请号 CN202011034790.7 申请日 -
公开(公告)号 CN112183087A 公开(公告)日 2021-01-05
申请公布号 CN112183087A 申请公布日 2021-01-05
分类号 G06F40/284(2020.01)I 分类 计算;推算;计数;
发明人 廖巍;郭梓轩;韩敏;刘红宇 申请(专利权)人 武汉华工安鼎信息技术有限责任公司
代理机构 北京汇泽知识产权代理有限公司 代理人 武汉华工安鼎信息技术有限责任公司
地址 430000湖北省武汉市东湖新技术开发区金融港一路7号神州数码武汉科技园15栋1-4层02室-2
法律状态 -

摘要

摘要 一种敏感文本识别的系统,包括:分词模块、文档和索引模块、敏感内容相似度评分模块、文档匹配模块、上层管理模块;本发明提出的一种敏感文本识别的系统,一方面对敏感词的细粒度拆分,会大大减少一些干扰因素对敏感信息判定的干扰,当有多个单字与敏感词中的单字雷同的情况时,会使该文档的敏感词相似度打分上升,从而更容易鉴别出包含隐藏敏感信息的文档。另一方面,本发明方便用户对多个文档的敏感情况进行评估,同时在用户想了解详细情况的时候,能通过文档匹配模块对敏感信息进行定位,方便寻找和判定,大大提高了敏感词检索技术的可用性,使之能够成为保密行业多种软件产品可以依赖的一种重要的保密工具。