数据标注方法及装置
基本信息
申请号 | CN202110764998.2 | 申请日 | - |
公开(公告)号 | CN113205163A | 公开(公告)日 | 2021-08-03 |
申请公布号 | CN113205163A | 申请公布日 | 2021-08-03 |
分类号 | G06K9/62(2006.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 郑继龙;齐红威;何鸿凌;肖永红 | 申请(专利权)人 | 数据堂(北京)科技股份有限公司 |
代理机构 | 北京三友知识产权代理有限公司 | 代理人 | 侯天印;郝博 |
地址 | 100192北京市海淀区宝盛南路1号院11号楼1层101-01 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种数据标注方法及装置,该方法包括:利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱和伪标签数据信息;对伪标签数据信息进行校验标注;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;对精品数据集进行数据补充,获得全标签数据集;利用全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。本发明可以大幅减少人工标注成本,并提高数据标注效率。 |
