一种基于CNN与BERT模型的英文语法纠错方法
基本信息
申请号 | CN201910085507.4 | 申请日 | - |
公开(公告)号 | CN111507092A | 公开(公告)日 | 2020-08-07 |
申请公布号 | CN111507092A | 申请公布日 | 2020-08-07 |
分类号 | G06F40/232;G06N3/04;G06N3/08 | 分类 | - |
发明人 | 马士成;贾艳明 | 申请(专利权)人 | 北京博智天下信息技术有限公司 |
代理机构 | - | 代理人 | - |
地址 | 100085 北京市海淀区信息路甲28号D座05A502号 | ||
法律状态 | - |
摘要
摘要 | 英文语法纠错是自然语言处理领域中的一个重要研究方向。传统的语法纠错系统多基于规则判断,能够检测出的错误种类有限,扩展能力差。现有的基于循环神经网络的语法纠错系统在面对长句子时,容易丢失头尾的信息,且由于无法并行提取特征,致使训练周期长。本发明提供了一种基于CNN与BERT模型的英文语法纠错方法。模型采用了CNN+Attention+BERT结构,实现方式采用了Encoder‑Decoder框架。通过卷积,能够高效并准确地提取上下文的特征;Attention层为不同的单词增加的权重,使得模型可以学到更重要的特征;BERT采用了Masked Language Model的方式来训练语言模型,通过fine‑tuning可以为其添加(0,1)分类任务,用于为纠错系统输出的句子评分,提高系统准确度。 |
