一种原生语音模态的语言模型训练方法

发明授权

请登陆查看更多内容

专利标题： 一种原生语音模态的语言模型训练方法
申请号： CN202410911342.2

申请日： 2024-07-09
公开(公告)号： CN118471202B

公开(公告)日： 2024-09-13
发明人: 杨明 , 魏庚辰 , 周心池 , 丛文琳 , 赵向阳
申请人： 浩神科技(北京)有限公司
申请人地址： 北京市朝阳区方家村甲20号
专利权人： 浩神科技(北京)有限公司
当前专利权人： 浩神科技(北京)有限公司
当前专利权人地址： 北京市朝阳区方家村甲20号
代理机构： 河北垣著专利代理事务所
代理商 陈凤
主分类号： G10L15/06
IPC分类号： G10L15/06 ; G10L15/183 ; G06N3/0455 ; G06N3/08

摘要：

本发明公开一种原生语音模态的语言模型训练方法，涉及语言模型训练技术领域，所述方法包括：利用传统语音模型构建训练数据集；基于训练数据集中的语音文本对构建语音语义编解码器；使用语音语义编解码器对大语言模型进行第一次微调使其具备语音理解能力；基于人类偏好对大语言模型进行第二次微调，使其具备对语音语调以及人类情感的感知；将微调后的大语言模型进行量化及流式部署。本发明以较小的训练成本，把文本大语言模型转换成具备端到端语音理解与生成的多模态大模型，能够直接处理语音输出，而无需依赖于多个分离的阶段，从而提高了交互的自然性、效率和实时性。

公开/授权文献

CN118471202A 一种原生语音模态的语言模型训练方法公开/授权日：2024-08-09

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/06	.创建基准模板；训练语音识别系统，例如对说话者声音特征的适应（G10L15/14优先）