文档的分类分级方法、分类分级装置和文档系统

基本信息

申请号 CN202210240945.5 申请日 -
公开(公告)号 CN114676301A 公开(公告)日 2022-06-28
申请公布号 CN114676301A 申请公布日 2022-06-28
分类号 G06F16/93(2019.01)I;G06F16/906(2019.01)I;G06K9/62(2022.01)I 分类 计算;推算;计数;
发明人 李鸿飞;谢福进;陈震宇;刘国华;李少波 申请(专利权)人 中国邮政储蓄银行股份有限公司
代理机构 北京康信知识产权代理有限责任公司 代理人 -
地址 100032北京市西城区金融大街3号
法律状态 -

摘要

摘要 本申请提供了一种文档的分类分级方法、分类分级装置和文档系统,该方法包括:获取多个文档样本;采用中文文档向量对文档样本进行特征提取,得到文档特征向量;对文档特征向量进行聚类,得到多个类别和各类别对应的类簇中心点向量;去除各类别中偏心欧式距离大于预定距离的文档特征向量对应的文档样本,得到样本库,偏心欧式距离为文档特征向量对应的点与所属类别的类簇中心点向量对应的点的欧式距离;采用样本库对初始模型进行训练得到文档分类分级模型;采用文档分类分级模型对目标文档进行分类分级。该方法解决了现有技术中文档的分类分级方法中构建样本库的人力成本高的问题。