一种应用离群点检测算法LOF模型的文本分类方法及装置

基本信息

申请号 CN202111388531.9 申请日 -
公开(公告)号 CN114036265A 公开(公告)日 2022-02-11
申请公布号 CN114036265A 申请公布日 2022-02-11
分类号 G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06F40/126(2020.01)I;G06F40/279(2020.01)I;G06F40/30(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 胡加明;李健铨;刘小康 申请(专利权)人 鼎富智能科技有限公司
代理机构 北京弘权知识产权代理有限公司 代理人 郭放;许伟群
地址 230000安徽省合肥市高新区习友路3333号A1楼19层-B区
法律状态 -

摘要

摘要 本申请实施例提供了一种应用离群点检测算法LOF模型的文本分类方法及装置。该方法包括:获取包括训练文本及其对应的类别标签的训练数据集,训练文本包括以预设比例配置的具有已知标签的训练文本和具有其他标签的训练文本;使用训练数据集训练分类模型;将具有已知标签的训练文本输入到分类模型中,以获取具有已知标签的训练文本的嵌入表示、中间结果和最终表示向量;根据具有已知标签的训练文本的嵌入表示、中间结果和最终表示向量训练多个LOF模型;根据分类模型和多个LOF模型判断测试文本是否为未知类别。本申请提供的技术方案使得文本分类模型能够从测试文本中识别出未知类别,避免将未知类别的文本分配到已知的类别标签,提高了文本分类的准确性。