一种基于对比学习的长文本检索模型

基本信息

申请号 CN202111436178.7 申请日 -
公开(公告)号 CN114201581A 公开(公告)日 2022-03-18
申请公布号 CN114201581A 申请公布日 2022-03-18
分类号 G06F16/33(2019.01)I;G06F16/338(2019.01)I;G06F16/35(2019.01)I;G06N3/08(2006.01)I;G06N3/04(2006.01)I 分类 计算;推算;计数;
发明人 钟泽艺;杨敏;贺倩明 申请(专利权)人 深圳得理科技有限公司
代理机构 深圳市铭粤知识产权代理有限公司 代理人 孙伟峰;武岑飞
地址 518055广东省深圳市南山区深圳大学城学苑大道1068号
法律状态 -

摘要

摘要 本申请提供了一种基于对比学习的长文本检索模型,包括法律领域预训练模块、对比学习模块以及检索模块;其中,法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对长文本编码器进行领域预训练;对比学习模块,用于从案例标注数据集中构造训练数据,以及利用训练数据对所述长文本编码器进行文本向量训练,其中,训练数据包括查询语句及其正样本、负样本;检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。通过上述方式,本申请的长文本检索模型能够有效解决深度模型处理长文本的问题,结合类案检索的特点,使用领域预训练以及对比学习方法对文档编码器进行调整,提高了检索的准确度和效率。