相似样本语料的生成方法、装置、电子设备及存储介质
基本信息

| 申请号 | CN202111622743.9 | 申请日 | - |
| 公开(公告)号 | CN114357974A | 公开(公告)日 | 2022-04-15 |
| 申请公布号 | CN114357974A | 申请公布日 | 2022-04-15 |
| 分类号 | G06F40/211(2020.01)I;G06F40/30(2020.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
| 发明人 | 张阳;漆骏锋;胡伯良 | 申请(专利权)人 | 北京海泰方圆科技股份有限公司 |
| 代理机构 | 北京同达信恒知识产权代理有限公司 | 代理人 | 刘亚威 |
| 地址 | 100094北京市海淀区东北旺西路8号中关村软件园9号楼国际软件大厦E座一层、二层 | ||
| 法律状态 | - | ||
摘要

| 摘要 | 本申请涉及数据处理领域,尤其涉及一种相似样本语料的生成方法、装置、电子设备及存储介质,解决相似样本语料的生成过程复杂,以及难以生成有效相似样本语料的问题,方法为:获取目标领域的一个第一种子语句,以及其他领域中的各个第二种子语句,将第一种子语句输入添加噪音扰动的各个预训练模型,获得各个第一融合结果,以及获取根据各个第二种子语句确定的各个第二融合结果,再根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料。这样,不仅简化了相似样本语料的生成过程,还提高了相似样本语料的生成效率,而且能够生成有效的相似样本语料。 |





