基于MASK训练的辱骂识别方法

基本信息

申请号 CN202111652552.7 申请日 -
公开(公告)号 CN114298017A 公开(公告)日 2022-04-08
申请公布号 CN114298017A 申请公布日 2022-04-08
分类号 G06F40/253(2020.01)I;G06F40/237(2020.01)I;G06F40/289(2020.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 赵继帆;吉庆琳 申请(专利权)人 北京尘锋信息技术有限公司
代理机构 北京东灵通专利代理事务所(普通合伙) 代理人 李金豹
地址 100020北京市朝阳区安立路78、80号05层501内506室
法律状态 -

摘要

摘要 本发明属于数据挖掘技术领域,尤其是基于MASK训练的辱骂识别方法,包括DusBERT训练模型,具体包括以下步骤:S1:数据准备;S2:数据清洗;S3:构造字典;S4:数据增强;S5:分词构建输入;S6:MASK训练;S7:结束,所述S1的步骤中,从网络上收集脏话数据,另外收集不带脏词但语义上是辱骂的的文本,该文本实验中不作为训练数据,而仅仅作为特殊测试数据,非辱骂文本来自于之前各种任务的随机抽样。本发明从特殊测试集上来看,不需要额外准备数据,大大节省成本且达到较高水平,在未使用特殊测试集训练的情况下,能够区分包含脏字脏词但非辱骂语义以及暗喻辱骂文本,足可见模型方法的泛华能力。