分类标签的核心语句提取方法、系统、设备及存储介质
基本信息
申请号 | CN202111234433.X | 申请日 | - |
公开(公告)号 | CN113987174A | 公开(公告)日 | 2022-01-28 |
申请公布号 | CN113987174A | 申请公布日 | 2022-01-28 |
分类号 | G06F16/35(2019.01)I;G06F16/31(2019.01)I;G06F40/211(2020.01)I;G06F40/289(2020.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 吴宇皓;周震卿;鞠剑勋;李健 | 申请(专利权)人 | 上海携旅信息技术有限公司 |
代理机构 | 上海隆天律师事务所 | 代理人 | 钟宗 |
地址 | 201803上海市嘉定区金园一路1331号401室-4 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了分类标签的核心语句提取方法、系统、设备及存储介质,该方法包括:提供具有文本预设标签的语句训练文本,对语句训练文本转化为数字序列并复制扩充一次,在转化为字词向量矩阵,并通过字词向量矩阵获得语句编码向量;根据文本预设标签和神经网络获取的模型预测标签获得总损失,经过迭代训练获得总损失最小时的神经网络分类模型和训练语句对应的语句编码向量;根据标签对应的语句编码向量的平均值获得中心向量;以及根据中心向量和语句编码向量的相似排序,选出核心语句。本发明能够通过深度学习的方式去除了部分冗余数据,大幅提升神经网络分类模型中选取核心语句的准确性,大幅度降低模型计算成本。 |
