样本数据的生成方法、装置、设备及存储介质

基本信息

申请号 CN202110728017.9 申请日 -
公开(公告)号 CN113361267A 公开(公告)日 2021-09-07
申请公布号 CN113361267A 申请公布日 2021-09-07
分类号 G06F40/242;G06F40/279;G06F40/30;G06F16/335;G06F16/951 分类 计算;推算;计数;
发明人 谢正文;徐君妍;刘屹;孙敬萍;沈志勇 申请(专利权)人 招商局金融科技有限公司
代理机构 深圳市沃德知识产权代理事务所(普通合伙) 代理人 高杰;于志光
地址 518000 广东省深圳市福田区华富街道皇岗路5001号深业上城(南区)二期35层、36层
法律状态 -

摘要

摘要 本发明涉及数据处理领域,提供了一种样本数据的生成方法、装置、设备及存储介质。所述方法包括:从预定的数据源获取第一文本集和第二文本集,对第一文本集的各文本执行分词操作,提取各文本分词后的关键词并生成关键词集,利用关键词集构建关键词词典,基于关键词词典及第一预设模板生成正样本数据集,根据关键词提取算法确定第二文本集中各文本的预设词性的关键词,将该关键词替换为关键词词典中预设词性的关键词生成负样本数据集,将正样本数据集和负样本数据集反馈至预设终端。本发明可以提升生成样本数据的效率,且样本的语义合理性高。