一种文本语料生成方法、装置、设备及介质
基本信息
申请号 | CN202011627584.7 | 申请日 | - |
公开(公告)号 | CN114692642A | 公开(公告)日 | 2022-07-01 |
申请公布号 | CN114692642A | 申请公布日 | 2022-07-01 |
分类号 | G06F40/30(2020.01)I;G06F40/211(2020.01)I;G06F40/279(2020.01)I;G06F40/44(2020.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 康兵兵;蒋卓;刘太路;林绍令 | 申请(专利权)人 | 北京猎户星空科技有限公司 |
代理机构 | 北京同达信恒知识产权代理有限公司 | 代理人 | - |
地址 | 100025北京市朝阳区姚家园南路一号惠通时代广场8号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种文本语料生成方法、装置、设备及介质,用以解决现有基于预设的泛化规则,生成的泛化文本质量差,不利于后续基于该文本语料进行模型训练的问题。由于本发明实施例在生成文本语料对应的目标泛化文本时,是基于预先训练完成的至少一个文本泛化模型、解码网络以及该文本语料确定的,使获取的泛化文本更加贴近自然语言,且解码网络在对每个第一概率序列进行解码时,不仅根据该第一概率序列,还根据已解码出的第一字符,使得该第一概率序列解码出的第二字符可以考虑前后文的语义、语序等信息,确定泛化文本,后续根据解码得到的泛化文本,确定该文本语料对应的目标泛化文本会更加的准确。 |
