一种基于BERT算法的网页有害文本识别方法及系统

基本信息

申请号 CN202111376161.7 申请日 -
公开(公告)号 CN114090775A 公开(公告)日 2022-02-25
申请公布号 CN114090775A 申请公布日 2022-02-25
分类号 G06F16/35(2019.01)I;G06F16/33(2019.01)I;G06F16/951(2019.01)I;G06F16/957(2019.01)I 分类 计算;推算;计数;
发明人 周小敏;应鸿晖;林国池;石易;麦丽娟;莫凡;林佳涛;李高翔;黄福鸿;卓采标;廖淑敏;杨慧强;宋宜昌;黄正国;周毅;吴冠标;李新;蒋维;曹勇;高欢 申请(专利权)人 天津市国瑞数码安全系统股份有限公司
代理机构 北京力量专利代理事务所(特殊普通合伙) 代理人 王鸿远
地址 510075广东省广州市天河区建中路4号
法律状态 -

摘要

摘要 本发明属于网页文本处理领域,具体涉及一种基于BERT算法的网页有害文本识别方法及系统,所述识别方法包括:步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对初始文本进行文本整理,得到待识别文本集合;步骤3:将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对识别结果进行人工验证,并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本,利用已有的有害文本判断模型实现网页文本内容识别,同时还通过人工校正对有害文本判断模型进行训练更新,进一步提升有害文本判断模型的准确性。