一种针对粗粒度文本分类的数据动态标注方法及装置

基本信息

申请号 CN201910568651.3 申请日 -
公开(公告)号 CN110287324A 公开(公告)日 2019-09-27
申请公布号 CN110287324A 申请公布日 2019-09-27
分类号 G06F16/35;G06K9/62 分类 计算;推算;计数;
发明人 顾凌云;严涵;王洪阳 申请(专利权)人 成都冰鉴信息科技有限公司
代理机构 常州佰业腾飞专利代理事务所(普通合伙) 代理人 成都冰鉴信息科技有限公司
地址 610041 四川省成都市高新区天府五街200号3号楼A栋1001室
法律状态 -

摘要

摘要 本发明提供了一种针对粗粒度文本分类的数据动态标注方法及装置,其中方法包括:按照标签类别比例均衡标注数据;构建文本TF‑IDF词频矩阵;使用卡方分布进行特征筛选得到训练数据集;使用机器学习算法对训练数据集进行训练,得到初始模型;获取测试数据集,利用初始模型对测试数据集中的第一预设数据量的数据进行标注,得到预测标注数据;获取按照标签类别分别抽取预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据;将与各个数据标注标签对应的数据加入到训练数据集中,使用机器学习算法对训练数据集进行训练得到修正模型;判断训练数据量是否满足第二预设数据量,不满足继续执行上述流程;满足存储修正模型为预测模型。