一种文本检索方法、系统、设备及存储介质
基本信息
申请号 | CN202111609947.9 | 申请日 | - |
公开(公告)号 | CN114003698A | 公开(公告)日 | 2022-02-01 |
申请公布号 | CN114003698A | 申请公布日 | 2022-02-01 |
分类号 | G06F16/33(2019.01)I;G06K9/62(2022.01)I | 分类 | 计算;推算;计数; |
发明人 | 郭湘;黄鹏;江岭 | 申请(专利权)人 | 成都晓多科技有限公司 |
代理机构 | 成都睿道专利代理事务所(普通合伙) | 代理人 | 薛波 |
地址 | 610000四川省成都市天府新区兴隆街道湖畔路西段123号 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种文本检索方法、系统、设备及存储介质,步骤如下:利用预训练语言模型作为编码器,通过编码器对一批标注过后的相似句对进行自注意力和掩码处理;对最终编码进行池化处理,根据交叉熵损失函数指导训练;通过数据增强为输入构造正样本,将及输入编码器,得到表示向量和;计算表示向量与批内其他向量的相似度,根据相似度对候选文本排序,通过最终损失函数指导网络参数的迭代训练;基于训练好的模型进行文本检索。本申请通过加入有标注样本的有监督训练,可增强模型的泛化能力;基于注意力掩码机制,模型本身会有相似度文本推理能力;基于对比学习,用无监督的方式使得模型具有文本检索的能力。 |
