文本类数据大规模分类标注方法、系统、装置及存储介质
基本信息
申请号 | CN202110120553.0 | 申请日 | - |
公开(公告)号 | CN112445897A | 公开(公告)日 | 2021-03-05 |
申请公布号 | CN112445897A | 申请公布日 | 2021-03-05 |
分类号 | G06F16/35(2019.01)I;G06F16/33(2019.01)I;G06F40/284(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 蓝建敏;申鑫 | 申请(专利权)人 | 京华信息科技股份有限公司 |
代理机构 | 广州嘉权专利商标事务所有限公司 | 代理人 | 常柯阳 |
地址 | 510520广东省广州市天河区高普路138号京华信息大楼中座 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种文本类数据大规模分类标注方法、系统、装置及存储介质,该方法包括从待标注语料中筛选具有代表性的语料作为典型语料;对典型语料进行分析,提取关键特征;根据关键特征,提取分类对应的匹配规则和特征词,对匹配规则和特征词进行验证;将验证通过的匹配规则保存至规则库,将验证通过的特征词保存至特征词库;根据规则库和特征词库,对文本类数据进行大规模机器分类标注;对大规模机器分类标注的标注效果进行核验;输出核验合格的标注数据。本发明能够提取得到准确率较高的规则和特征词;能够提升大规模机器分类标注的质量和标注的效率,大幅度降低人工对大规模文本类数据进行标注的工作量。本发明可广泛应用于文本分类技术领域。 |
