一种用于训练英语语法改错模型的文本数据生成方法

基本信息

申请号 CN201910719334.7 申请日 -
公开(公告)号 CN110399936A 公开(公告)日 2019-11-01
申请公布号 CN110399936A 申请公布日 2019-11-01
分类号 G06K9/62(2006.01)I; G06F17/27(2006.01)I; G06F17/28(2006.01)I 分类 计算;推算;计数;
发明人 徐书尧; 秦龙; 陈进 申请(专利权)人 北京先声智能科技有限公司
代理机构 北京中企讯知识产权代理有限公司 代理人 北京先声智能科技有限公司
地址 100000 北京市海淀区上庄乡上庄村北京市西郊农场机关10幢平房1027
法律状态 -

摘要

摘要 本发明涉及数据生成技术领域,尤其是一种用于训练英语语法改错模型的文本数据生成方法,其步骤为:(1)句子错误数量的引入;(2)确定错误类型;(3)根据错误类型进行相应的Word Tree替换;(4)利用WMT11单语言数据与One‑Billion‑Word单语言数据生成作为语法改错模型预训练数据,本发明有效提高语法改错模型的效果。