一种提升金融风险防控领域舆情实体识别率的方法

基本信息

申请号 CN202010550784.0 申请日 -
公开(公告)号 CN111695346A 公开(公告)日 2020-09-22
申请公布号 CN111695346A 申请公布日 2020-09-22
分类号 G06F40/279(2020.01)I 分类 计算;推算;计数;
发明人 郑杰文 申请(专利权)人 广州金融科技股份有限公司
代理机构 新余市渝星知识产权代理事务所(普通合伙) 代理人 张瑜生
地址 511455广东省广州市南沙区海滨路171号南沙金融大厦11楼1101之一J41
法律状态 -

摘要

摘要 本发明涉及互联网技术领域,具体是一种提升金融风险防控领域舆情实体识别率的方法,包括以下步骤:S1.收集通用领域语料,诸如百度百科,维基百科,人民日报等,对语料中的通用实体进行BIO标签标注;S2.收集金融领域语料,只对语料中的金融简称、金融新实体等专用实体进行BIO标签标注,不对通用实体进行BIO标注;S3.选取深度学习NLP预训练模型,诸如bert预训练模型等;S4.挑选适合NER任务的下游模型,诸如bilstm_crf模型等。本发明的有益效果为利用基于深度学习的方法,通过分别训练基于NLP预训练模型的通用领域NER模型和基于NLP预训练模型的专用领域NER模型,再将二者抽取结果进行融合,从而提高金融领域舆情实体识别的抽取率。