文本分类主动学习的基于半径的不确定度采样方法和系统

基本信息

申请号 CN202010669244.4 申请日 -
公开(公告)号 CN111914061B 公开(公告)日 2021-04-16
申请公布号 CN111914061B 申请公布日 2021-04-16
分类号 G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06F16/35(2019.01)I;G06N3/08(2006.01)I;G06F16/33(2019.01)I 分类 计算;推算;计数;
发明人 朱其立;沈李斌;廖千姿;顾钰仪;赵迎功;吴海华 申请(专利权)人 上海乐言科技股份有限公司
代理机构 上海专利商标事务所有限公司 代理人 施浩
地址 200050上海市长宁区长宁路1033号联通大厦19楼
法律状态 -

摘要

摘要 本发明公开了一种文本分类主动学习的基于半径的不确定度采样方法和系统,应用于多类别短文本,优化减弱场景中噪声对结果的不良影响,并且方法的普适性较高,能够适用于任何存在隐藏层的深度模型。其技术方案为:通过文本分类器对每个标注数据的数据点的信息熵进行评分,并给出该标注数据的预测类别;文本分类器对未标注数据给出对应的预测类别;分别计算每个预测类别的半径;将标注数据的信息熵评分、标注数据的预测类别、未标注数据的预测类别的半径组合在一起,得到综合评分。