相似样本语料的生成方法、装置、电子设备及存储介质

基本信息

申请号 CN202111622743.9 申请日 -
公开(公告)号 CN114357974A 公开(公告)日 2022-04-15
申请公布号 CN114357974A 申请公布日 2022-04-15
分类号 G06F40/211(2020.01)I;G06F40/30(2020.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 张阳;漆骏锋;胡伯良 申请(专利权)人 北京海泰方圆科技股份有限公司
代理机构 北京同达信恒知识产权代理有限公司 代理人 刘亚威
地址 100094北京市海淀区东北旺西路8号中关村软件园9号楼国际软件大厦E座一层、二层
法律状态 -

摘要

摘要 本申请涉及数据处理领域,尤其涉及一种相似样本语料的生成方法、装置、电子设备及存储介质,解决相似样本语料的生成过程复杂,以及难以生成有效相似样本语料的问题,方法为:获取目标领域的一个第一种子语句,以及其他领域中的各个第二种子语句,将第一种子语句输入添加噪音扰动的各个预训练模型,获得各个第一融合结果,以及获取根据各个第二种子语句确定的各个第二融合结果,再根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料。这样,不仅简化了相似样本语料的生成过程,还提高了相似样本语料的生成效率,而且能够生成有效的相似样本语料。