一种面向中文的预训练方法及系统
基本信息
申请号 | CN202010205873.1 | 申请日 | - |
公开(公告)号 | CN111079447A | 公开(公告)日 | 2020-04-28 |
申请公布号 | CN111079447A | 申请公布日 | 2020-04-28 |
分类号 | G06F40/30;G06F40/289;G06N3/04;G06N3/08;G06F9/455 | 分类 | 计算;推算;计数; |
发明人 | 李舟军;刘俊杰;肖武魁;覃维;陈小明;范宇 | 申请(专利权)人 | 深圳智能思创科技有限公司 |
代理机构 | 深圳市恒程创新知识产权代理有限公司 | 代理人 | 深圳智能思创科技有限公司 |
地址 | 518000 广东省深圳市南山区南头街道莲城社区深南大道10128号南山软件园A2108-2107 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种面向中文的预训练方法及系统,包括:模型参数配置模块、预训练模型生成模块和服务封装模块。模型参数配置模块:主要针对用户需要根据自身需求定制中文预训练模型的情况,使其能够以友好的界面方式配置预训练模型的参数;预训练模型生成模块:根据用户提交的模型参数配置和预训练语料数据,训练一个中文预训练模型,并以模型文件的方式保存下来;服务封装模块:将模型文件封装成一个中文特征抽取器服务,并给用户提供相应的Docker镜像方便服务的部署。本发明专门针对大规模的无监督中文语料,提出了一种面向中文的预训练方法及系统,有效地提高了预训练方法在中文任务上的表现。 |
