发明授权
- 专利标题: 一种面向中文的预训练方法及系统
-
申请号: CN202010205873.1申请日: 2020-03-23
-
公开(公告)号: CN111079447B公开(公告)日: 2020-07-14
- 发明人: 李舟军 , 刘俊杰 , 肖武魁 , 覃维 , 陈小明 , 范宇
- 申请人: 深圳智能思创科技有限公司
- 申请人地址: 广东省深圳市南山区南头街道莲城社区深南大道10128号南山软件园A2108-2107
- 专利权人: 深圳智能思创科技有限公司
- 当前专利权人: 深圳智能思创科技有限公司
- 当前专利权人地址: 广东省深圳市南山区南头街道莲城社区深南大道10128号南山软件园A2108-2107
- 代理机构: 深圳市恒程创新知识产权代理有限公司
- 代理商 赵爱蓉
- 主分类号: G06F40/30
- IPC分类号: G06F40/30 ; G06F40/289 ; G06N3/04 ; G06N3/08 ; G06F9/455
摘要:
本发明涉及一种面向中文的预训练方法及系统,包括:模型参数配置模块、预训练模型生成模块和服务封装模块。模型参数配置模块:主要针对用户需要根据自身需求定制中文预训练模型的情况,使其能够以友好的界面方式配置预训练模型的参数;预训练模型生成模块:根据用户提交的模型参数配置和预训练语料数据,训练一个中文预训练模型,并以模型文件的方式保存下来;服务封装模块:将模型文件封装成一个中文特征抽取器服务,并给用户提供相应的Docker镜像方便服务的部署。本发明专门针对大规模的无监督中文语料,提出了一种面向中文的预训练方法及系统,有效地提高了预训练方法在中文任务上的表现。
公开/授权文献
- CN111079447A 一种面向中文的预训练方法及系统 公开/授权日:2020-04-28