一种基于机器学习算法的元数据分级分类方法

基本信息

申请号 CN202210300625.4 申请日 -
公开(公告)号 CN114676253A 公开(公告)日 2022-06-28
申请公布号 CN114676253A 申请公布日 2022-06-28
分类号 G06F16/35(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G06N20/00(2019.01)I 分类 计算;推算;计数;
发明人 吴明光;郭慧茹;刘琼;周官皓 申请(专利权)人 上海海事大学
代理机构 上海德昭知识产权代理有限公司 代理人 -
地址 201306上海市浦东新区沪城环路1851号
法律状态 -

摘要

摘要 本发明提供一种基于机器学习算法的元数据分级分类方法,包括以下步骤:首先根据原始元数据集创建了频繁项词库;然后创新的基于频繁项词库将原始元数据集中复杂且无统一规则的类文本字段的特征转化为数值型特征,从而解决现有文本分类方法无法针对无统一命名规则的元数据字段进行准确分类的问题;其次,构建了两阶段分类模型,并对该模型进行了训练和优化,通过该模型的二分类器对待测元数据先进行敏感级别分类,最后由多分类器进一步对敏感类元数据进行细分类,输出更为准确的分级分类结果。该方法解决了目前金融领域敏感数据依靠人力进行分类分级耗费巨大的问题,实现了精准分类,有效保护了数据隐私,满足了业务需求,提高了分类工作效率。