一种相似文本数据集生成方法及装置

基本信息

申请号 CN201910270585.1 申请日 -
公开(公告)号 CN110046332A 公开(公告)日 2019-07-23
申请公布号 CN110046332A 申请公布日 2019-07-23
分类号 G06F17/22;G06F17/27 分类 计算;推算;计数;
发明人 薛闯 申请(专利权)人 珠海远光消防科技有限公司
代理机构 北京天达知识产权代理事务所(普通合伙) 代理人 庞许倩;武悦
地址 519000 广东省珠海市横琴新区宝华路6号105室-4675
法律状态 -

摘要

摘要 本发明涉及一种相似文本数据集生成方法及装置,属于自然语言文本智能分析技术领域,解决了现有相似文本数据集生成方法存在的生成效率低、相似度差等问题。包括如下步骤:利用第一转换模型,将原文本转换为与所述原文本相关的第一文本集;利用第二转换模型,将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集;从所述第二文本集中选择与原文本相似的文本,将所述选择结果作为原文本的相似文本数据集;所述第一转换模型与所述第二转换模型采用不同的转换方式。实现了相似文本数据集的快速生成,且生成的相似文本数据集中的各文本与原文本相似度较高。