一种基于CNN与BERT模型的英文语法纠错方法

基本信息

申请号 CN201910085507.4 申请日 -
公开(公告)号 CN111507092A 公开(公告)日 2020-08-07
申请公布号 CN111507092A 申请公布日 2020-08-07
分类号 G06F40/232;G06N3/04;G06N3/08 分类 -
发明人 马士成;贾艳明 申请(专利权)人 北京博智天下信息技术有限公司
代理机构 - 代理人 -
地址 100085 北京市海淀区信息路甲28号D座05A502号
法律状态 -

摘要

摘要 英文语法纠错是自然语言处理领域中的一个重要研究方向。传统的语法纠错系统多基于规则判断,能够检测出的错误种类有限,扩展能力差。现有的基于循环神经网络的语法纠错系统在面对长句子时,容易丢失头尾的信息,且由于无法并行提取特征,致使训练周期长。本发明提供了一种基于CNN与BERT模型的英文语法纠错方法。模型采用了CNN+Attention+BERT结构,实现方式采用了Encoder‑Decoder框架。通过卷积,能够高效并准确地提取上下文的特征;Attention层为不同的单词增加的权重,使得模型可以学到更重要的特征;BERT采用了Masked Language Model的方式来训练语言模型,通过fine‑tuning可以为其添加(0,1)分类任务,用于为纠错系统输出的句子评分,提高系统准确度。