一种基于对比学习的长文本检索模型
基本信息
申请号 | CN202111436178.7 | 申请日 | - |
公开(公告)号 | CN114201581A | 公开(公告)日 | 2022-03-18 |
申请公布号 | CN114201581A | 申请公布日 | 2022-03-18 |
分类号 | G06F16/33(2019.01)I;G06F16/338(2019.01)I;G06F16/35(2019.01)I;G06N3/08(2006.01)I;G06N3/04(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 钟泽艺;杨敏;贺倩明 | 申请(专利权)人 | 深圳得理科技有限公司 |
代理机构 | 深圳市铭粤知识产权代理有限公司 | 代理人 | 孙伟峰;武岑飞 |
地址 | 518055广东省深圳市南山区深圳大学城学苑大道1068号 | ||
法律状态 | - |
摘要
摘要 | 本申请提供了一种基于对比学习的长文本检索模型,包括法律领域预训练模块、对比学习模块以及检索模块;其中,法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对长文本编码器进行领域预训练;对比学习模块,用于从案例标注数据集中构造训练数据,以及利用训练数据对所述长文本编码器进行文本向量训练,其中,训练数据包括查询语句及其正样本、负样本;检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。通过上述方式,本申请的长文本检索模型能够有效解决深度模型处理长文本的问题,结合类案检索的特点,使用领域预训练以及对比学习方法对文档编码器进行调整,提高了检索的准确度和效率。 |
