基于MASK训练的辱骂识别方法专利查询专利号|摘要-满商公司网

基于MASK训练的辱骂识别方法

基本信息

摘要

摘要	本发明属于数据挖掘技术领域，尤其是基于MASK训练的辱骂识别方法，包括DusBERT训练模型，具体包括以下步骤：S1：数据准备；S2：数据清洗；S3：构造字典；S4：数据增强；S5：分词构建输入；S6：MASK训练；S7：结束，所述S1的步骤中，从网络上收集脏话数据，另外收集不带脏词但语义上是辱骂的的文本，该文本实验中不作为训练数据，而仅仅作为特殊测试数据，非辱骂文本来自于之前各种任务的随机抽样。本发明从特殊测试集上来看，不需要额外准备数据，大大节省成本且达到较高水平，在未使用特殊测试集训练的情况下，能够区分包含脏字脏词但非辱骂语义以及暗喻辱骂文本，足可见模型方法的泛华能力。