一种文本检索方法、系统、设备及存储介质

基本信息

申请号 CN202111609947.9 申请日 -
公开(公告)号 CN114003698A 公开(公告)日 2022-02-01
申请公布号 CN114003698A 申请公布日 2022-02-01
分类号 G06F16/33(2019.01)I;G06K9/62(2022.01)I 分类 计算;推算;计数;
发明人 郭湘;黄鹏;江岭 申请(专利权)人 成都晓多科技有限公司
代理机构 成都睿道专利代理事务所(普通合伙) 代理人 薛波
地址 610000四川省成都市天府新区兴隆街道湖畔路西段123号
法律状态 -

摘要

摘要 本发明提供了一种文本检索方法、系统、设备及存储介质,步骤如下:利用预训练语言模型作为编码器,通过编码器对一批标注过后的相似句对进行自注意力和掩码处理;对最终编码进行池化处理,根据交叉熵损失函数指导训练;通过数据增强为输入构造正样本,将及输入编码器,得到表示向量和;计算表示向量与批内其他向量的相似度,根据相似度对候选文本排序,通过最终损失函数指导网络参数的迭代训练;基于训练好的模型进行文本检索。本申请通过加入有标注样本的有监督训练,可增强模型的泛化能力;基于注意力掩码机制,模型本身会有相似度文本推理能力;基于对比学习,用无监督的方式使得模型具有文本检索的能力。