标注数据生成方法、设备及计算机可读存储介质
基本信息
申请号 | CN201810609646.8 | 申请日 | - |
公开(公告)号 | CN108960409B | 公开(公告)日 | 2021-08-03 |
申请公布号 | CN108960409B | 申请公布日 | 2021-08-03 |
分类号 | G06N3/04(2006.01)I;G06K9/62(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 郑斌;徐晖 | 申请(专利权)人 | 南昌黑鲨科技有限公司 |
代理机构 | 上海雍灏知识产权代理事务所(普通合伙) | 代理人 | 沈汶波 |
地址 | 330008江西省南昌市青山湖区南昌经济技术开发区蛟桥镇办公楼319室 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种标注数据生成方法、设备及计算机可读存储介质。标注数据生成方法,包括以下步骤:S100:获取数据全集及包含于数据全集内已被标注的标注数据集;S200:分析标注数据集的数据特征,并根据数据特征制造符合数据特征的伪数据集;S300:基于GAN神经网络对伪数据集扩充,形成扩充数据集;S400:识别对扩充数据集内的数据是否需要标注,筛选被标注的数据以形成训练数据集;S500:对训练数据集进行神经网络训练形成训练模型;S600:基于训练模型对数据全集内处标注数据集外的数据清洗,标注符合训练模型的数据并归入标注数据集内,从而,以少量数据作为基础,可快速高效地生成与样本数据匹配度高,且随机性强的训练数集,从而扩大标注数据的数据量。 |
