数据标注方法及装置

基本信息

申请号 CN202110764998.2 申请日 -
公开(公告)号 CN113205163A 公开(公告)日 2021-08-03
申请公布号 CN113205163A 申请公布日 2021-08-03
分类号 G06K9/62(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 郑继龙;齐红威;何鸿凌;肖永红 申请(专利权)人 数据堂(北京)科技股份有限公司
代理机构 北京三友知识产权代理有限公司 代理人 侯天印;郝博
地址 100192北京市海淀区宝盛南路1号院11号楼1层101-01
法律状态 -

摘要

摘要 本发明公开了一种数据标注方法及装置,该方法包括:利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱和伪标签数据信息;对伪标签数据信息进行校验标注;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;对精品数据集进行数据补充,获得全标签数据集;利用全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。本发明可以大幅减少人工标注成本,并提高数据标注效率。