一种用于突发事件新闻识别与分类的半监督学习方法

基本信息

申请号 CN202110206548.1 申请日 -
公开(公告)号 CN112989841B 公开(公告)日 2021-09-21
申请公布号 CN112989841B 申请公布日 2021-09-21
分类号 G06F40/30(2020.01)I;G06F16/35(2019.01)I;G06F40/216(2020.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 龙飞;刘肖萌;滕辉 申请(专利权)人 中国搜索信息科技股份有限公司
代理机构 北京市盛峰律师事务所 代理人 于国富
地址 100077北京市东城区三元街17号8幢
法律状态 -

摘要

摘要 本发明涉及自然语言处理领域,公开了一种用于突发事件新闻识别与分类的半监督学习方法,包括以下步骤:抓取微博网站内容作为初始新闻数据集,通过人工标注得到标注数据集Dl;对未标注样本进行前置过滤操作,采用数据增强方法得到带扰动的未标注数据集;利用所述标注数据集Dl对基于BERT的多分类器模型进行监督学习、并最小化经验风险函数,利用基于BERT的多分类器模型对所述预过滤后的数据集和带扰动的未标注数据集进行预测,获得半监督学习训练出的基于BERT的多分类器模型实现突发事件新闻的识别和分类任务。本发明能够克服标注数据不足的情况下深度学习分类器过拟合的问题,提高对中文突发事件新闻识别和分类的准确率。