一种基于BERT算法的网页有害文本识别方法及系统
基本信息
申请号 | CN202111376161.7 | 申请日 | - |
公开(公告)号 | CN114090775A | 公开(公告)日 | 2022-02-25 |
申请公布号 | CN114090775A | 申请公布日 | 2022-02-25 |
分类号 | G06F16/35(2019.01)I;G06F16/33(2019.01)I;G06F16/951(2019.01)I;G06F16/957(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 周小敏;应鸿晖;林国池;石易;麦丽娟;莫凡;林佳涛;李高翔;黄福鸿;卓采标;廖淑敏;杨慧强;宋宜昌;黄正国;周毅;吴冠标;李新;蒋维;曹勇;高欢 | 申请(专利权)人 | 天津市国瑞数码安全系统股份有限公司 |
代理机构 | 北京力量专利代理事务所(特殊普通合伙) | 代理人 | 王鸿远 |
地址 | 510075广东省广州市天河区建中路4号 | ||
法律状态 | - |
摘要
摘要 | 本发明属于网页文本处理领域,具体涉及一种基于BERT算法的网页有害文本识别方法及系统,所述识别方法包括:步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对初始文本进行文本整理,得到待识别文本集合;步骤3:将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对识别结果进行人工验证,并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本,利用已有的有害文本判断模型实现网页文本内容识别,同时还通过人工校正对有害文本判断模型进行训练更新,进一步提升有害文本判断模型的准确性。 |
