一种优化BERT的问题语义匹配方法专利查询专利号|摘要-满商公司网

一种优化BERT的问题语义匹配方法

基本信息

申请号	CN202111442232.9	申请日	-
公开（公告）号	CN114218921A	公开（公告）日	2022-03-22
申请公布号	CN114218921A	申请公布日	2022-03-22
分类号	G06F40/211（2020.01）I;G06F40/30（2020.01）I;G06N3/04（2006.01）I;G06N3/08（2006.01）I;G06K9/62（2022.01）I	分类	计算；推算；计数;
发明人	高东平;秦奕;杨渊;李玲;池慧	申请（专利权）人	中国医学科学院医学信息研究所
代理机构	北京正阳理工知识产权代理事务所（普通合伙）	代理人	张利萍
地址	100020北京市朝阳区雅宝路3号
法律状态	-

摘要

本发明公开了一种基于Bert的语义匹配方法,该方法基于哈工大的预训练模型Bert‑wwm‑ext,我们先使用该模型在我们的大数据背景下做全词遮罩的无监督训练,使得模型先适应下我们的数据特点,保存基于我们数据的模型后,我们在该模型的结构上做了以下调整,在Bert的输出层加上Pooling层,在句子输入的时候,每个Batch我们输入的是一组特定的句子,其中一部分句子是语义相近的,剩下的句子是语义不同的,这样做是考虑到使得模型像人学习时一样,考虑数据之间的对比学习,使得模型更快收敛,模型架构改造完成后,我们基于该模型,再次在我们的大语料背景下做句子语义相似性训练,在训练的过程中,我们加入了同义句和非同义句之间的对比计算,然后使模型反向传播,最终得到的句向量语义表示更贴合实际。