文档分类方法、装置、存储介质及电子设备
基本信息
申请号 | CN202110462274.2 | 申请日 | - |
公开(公告)号 | CN113239190A | 公开(公告)日 | 2021-08-10 |
申请公布号 | CN113239190A | 申请公布日 | 2021-08-10 |
分类号 | G06F16/35(2019.01)I;G06F40/30(2020.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 喻银根 | 申请(专利权)人 | 天九共享网络科技集团有限公司 |
代理机构 | 北京英创嘉友知识产权代理事务所(普通合伙) | 代理人 | 李柯莹 |
地址 | 100012北京市朝阳区安立路30号仰山公园8号楼 | ||
法律状态 | - |
摘要
摘要 | 本公开涉及一种文档分类方法、装置、存储介质及电子设备。该方法包括:获取带目录的文本文档;提取文本文档中的关键词,并将关键词与所述目录进行结合,得到文本文档的压缩文档;对压缩文档进行字词混合编码,得到目标向量;将目标向量输入预先训练完成的深度学习模型,得到深度学习模型输出的文档分类结果。本公开实施例通过提取关键词,并将关键词与目录进行结合的方式,实现了在保留文本核心内容的基础上,对文本进行了压缩,降低了深度学习模型因文本过长而对文本进行截断,导致大部分文本核心信息丢失的概率。 |
