一种基于BERT算法的网页有害文本识别方法及系统专利查询专利号|摘要-满商公司网

请输入想查询的关键字

查询

退出

头部vip图标

浏览历史

清除

首页/ 天津市国瑞数码安全系统股份有限公司/ 专利详情

一种基于BERT算法的网页有害文本识别方法及系统

基本信息

申请号	CN202111376161.7	申请日	-
公开（公告）号	CN114090775A	公开（公告）日	2022-02-25
申请公布号	CN114090775A	申请公布日	2022-02-25
分类号	G06F16/35（2019.01）I;G06F16/33（2019.01）I;G06F16/951（2019.01）I;G06F16/957（2019.01）I	分类	计算；推算；计数;
发明人	周小敏;应鸿晖;林国池;石易;麦丽娟;莫凡;林佳涛;李高翔;黄福鸿;卓采标;廖淑敏;杨慧强;宋宜昌;黄正国;周毅;吴冠标;李新;蒋维;曹勇;高欢	申请（专利权）人	天津市国瑞数码安全系统股份有限公司
代理机构	北京力量专利代理事务所（特殊普通合伙）	代理人	王鸿远
地址	510075广东省广州市天河区建中路4号
法律状态	-

摘要

摘要	本发明属于网页文本处理领域，具体涉及一种基于BERT算法的网页有害文本识别方法及系统，所述识别方法包括：步骤1：使用网络爬虫爬取网页原始内容，得到初始文本；步骤2：基于HTML协议对初始文本进行文本整理，得到待识别文本集合；步骤3：将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别，得到识别结果；步骤4：对识别结果进行人工验证，并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本，利用已有的有害文本判断模型实现网页文本内容识别，同时还通过人工校正对有害文本判断模型进行训练更新，进一步提升有害文本判断模型的准确性。