标注数据生成方法、设备及计算机可读存储介质

基本信息

申请号 CN201810609646.8 申请日 -
公开(公告)号 CN108960409B 公开(公告)日 2021-08-03
申请公布号 CN108960409B 申请公布日 2021-08-03
分类号 G06N3/04(2006.01)I;G06K9/62(2006.01)I 分类 计算;推算;计数;
发明人 郑斌;徐晖 申请(专利权)人 南昌黑鲨科技有限公司
代理机构 上海雍灏知识产权代理事务所(普通合伙) 代理人 沈汶波
地址 330008江西省南昌市青山湖区南昌经济技术开发区蛟桥镇办公楼319室
法律状态 -

摘要

摘要 本发明提供了一种标注数据生成方法、设备及计算机可读存储介质。标注数据生成方法,包括以下步骤:S100:获取数据全集及包含于数据全集内已被标注的标注数据集;S200:分析标注数据集的数据特征,并根据数据特征制造符合数据特征的伪数据集;S300:基于GAN神经网络对伪数据集扩充,形成扩充数据集;S400:识别对扩充数据集内的数据是否需要标注,筛选被标注的数据以形成训练数据集;S500:对训练数据集进行神经网络训练形成训练模型;S600:基于训练模型对数据全集内处标注数据集外的数据清洗,标注符合训练模型的数据并归入标注数据集内,从而,以少量数据作为基础,可快速高效地生成与样本数据匹配度高,且随机性强的训练数集,从而扩大标注数据的数据量。