敏感词检测模型的训练方法和系统

基本信息

申请号 CN201711096041.5 申请日 -
公开(公告)号 CN110019795B 公开(公告)日 2021-10-12
申请公布号 CN110019795B 申请公布日 2021-10-12
分类号 G06F16/35(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 张鹏;张春荣 申请(专利权)人 普天信息技术有限公司
代理机构 北京德琦知识产权代理有限公司 代理人 谢安昆;宋志强
地址 100080北京市海淀区海淀北二街6号
法律状态 -

摘要

摘要 本发明提供一种敏感词检测模型的训练方法和系统,该方法包括:步骤A‑1:将训练语料库的样本数据输入第一BLSTM模型和第二BLSTM模型,将第一BLSTM模型和第二BLSTM模型的输出输入CRF模型,CRF模型输出输入文本的敏感词识别结果;基于CRF的识别结果与输入文本的标记结果的差异,更新模型当前参数;步骤A‑2:将训练语料库的样本数据输入当前第一BLSTM模型,将该第一BLSTM模型的输出输入CNN模型,CNN模型输出输入文本的字体识别结果;基于CNN的识别结果与输入文本的字体差异,更新模型的当前参数。本发明提供的敏感词检测模型训练方法和系统,可以得到性能更好的敏感词检测模型,相比于传统DFA算法,对敏感词的检测不受敏感词词库限制,对异性字具备一定的检测能力。