敏感词检测模型的训练方法和系统专利查询专利号|摘要-满商公司网

敏感词检测模型的训练方法和系统

基本信息

申请号	CN201711096041.5	申请日	-
公开（公告）号	CN110019795B	公开（公告）日	2021-10-12
申请公布号	CN110019795B	申请公布日	2021-10-12
分类号	G06F16/35（2019.01）I;G06N3/04（2006.01）I;G06N3/08（2006.01）I	分类	计算；推算；计数;
发明人	张鹏;张春荣	申请（专利权）人	普天信息技术有限公司
代理机构	北京德琦知识产权代理有限公司	代理人	谢安昆;宋志强
地址	100080北京市海淀区海淀北二街6号
法律状态	-

摘要

本发明提供一种敏感词检测模型的训练方法和系统，该方法包括：步骤A‑1：将训练语料库的样本数据输入第一BLSTM模型和第二BLSTM模型，将第一BLSTM模型和第二BLSTM模型的输出输入CRF模型，CRF模型输出输入文本的敏感词识别结果；基于CRF的识别结果与输入文本的标记结果的差异，更新模型当前参数；步骤A‑2：将训练语料库的样本数据输入当前第一BLSTM模型，将该第一BLSTM模型的输出输入CNN模型，CNN模型输出输入文本的字体识别结果；基于CNN的识别结果与输入文本的字体差异，更新模型的当前参数。本发明提供的敏感词检测模型训练方法和系统，可以得到性能更好的敏感词检测模型，相比于传统DFA算法，对敏感词的检测不受敏感词词库限制，对异性字具备一定的检测能力。