-
公开(公告)号:CN117894318A
公开(公告)日:2024-04-16
申请号:CN202410063886.8
申请日:2024-01-16
申请人: 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
摘要: 本公开涉及人工智能技术领域,提供了一种音频处理模型的训练方法、音频处理模型的训练装置、计算机存储介质、电子设备,其中,音频处理模型的训练方法包括:获取训练样本集;利用第一样本集对待训练的音频处理模型的第一分支网络进行预训练,获得预训练的第一分支网络,以及,利用第二样本集对待训练的音频处理模型的第二分支网络进行预训练,获得预训练的第二分支网络;利用训练样本集对预训练的第一分支网络和预训练的第二分支网络进行联合训练,获得训练好的音频处理模型;其中,第一分支网络用于执行回声消除和语音增强任务,第二分支网络用于执行语音端点检测任务。本公开能够通过一个模型执行多个音频处理任务,降低了系统功率。
-
公开(公告)号:CN117711441A
公开(公告)日:2024-03-15
申请号:CN202311542716.X
申请日:2023-11-17
申请人: 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
摘要: 本公开提供一种音频情绪识别模型的训练方法、装置、设备和可读介质,其中,音频情绪识别模型的训练方法包括:提取音频样本中的关键帧的语音状态;根据预设的嵌入向量编码信息确定关键帧的语音状态对应的情绪标签嵌入向量;根据情绪标签嵌入向量和音频样本的独热向量确定损失函数的输入;基于损失函数对音频情绪识别模型进行训练。通过本公开实施例,使得音频情绪识别模型在训练过程中能够学习到更加泛化的情绪特征,更准确且可靠地进行情绪识别。
-
公开(公告)号:CN117351963A
公开(公告)日:2024-01-05
申请号:CN202311560513.3
申请日:2023-11-21
申请人: 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
IPC分类号: G10L15/32 , G10L15/183 , G10L15/16
摘要: 本公开的实施例涉及用于语音识别的方法、装置、设备和可读介质。方法包括:基于从第一语音中识别到的至少一个第一候选文本序列,向前缀树添加分别表示至少一个第一候选文本序列的至少一个第一节点;基于从第二语音中识别到的至少一个第二候选文本序列,向前缀树添加分别表示至少一个第二候选文本序列的至少一个第二节点;确定多个文本序列各自对应的得分;从前缀树删除所述至少一条第一路径以删除至少一个第一节点,得到更新后的前缀树;以及至少基于更新后的前缀树,从未被删除的至少一个第一节点所表示的至少一个第一候选文本序列中确定与第一语音相匹配的第一目标文本序列。可以提高语音识别的效率。
-
公开(公告)号:CN118711575A
公开(公告)日:2024-09-27
申请号:CN202410871657.9
申请日:2024-07-01
申请人: 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
IPC分类号: G10L15/16 , G10L15/26 , G10L15/183
摘要: 本申请公开了一种语音识别方法、装置、电子设备及计算机可读介质,涉及计算机技术领域,一具体实施方式包括响应于语音识别请求,获取待识别语音和对应的前文智能机器人文本;基于稀疏权重矩阵的注意力计算方式从前文智能机器人文本中选择与待识别语音的语义最相关的文本内容;提取待识别语音的语音特征,融合语音特征和文本内容,以生成融合特征;基于融合特征进行语音识别,以得到语音识别结果数据。可以提升外呼系统的语音识别准确率。
-
公开(公告)号:CN118098213A
公开(公告)日:2024-05-28
申请号:CN202410216875.9
申请日:2024-02-27
申请人: 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
摘要: 本公开提供了一种自动语音识别模型建立方法、语音识别方法及相关设备,涉及语音识别技术领域。该方法包括获取训练数据集中的多个训练样本作为训练样本组和目标领域的多个语音数据;根据第一自动语音识别模型对各个训练样本和多个语音数据进行处理,得到各个训练样本的第一语义信息和各个语音数据的第二语义信息;根据第一语义信息和第二语义信息,计算语义相似度;根据语义相似度,构造第二自动语音识别模型;选择目标领域的部分语音数据作为验证集,对第二自动语音识别模型进行训练,若满足预设训练停止条件,得到目标自动语音识别模型。本公开有效降低时间成本和人力成本,提升模型在目标领域语音上的识别能力。
-
公开(公告)号:CN117935786A
公开(公告)日:2024-04-26
申请号:CN202410155152.2
申请日:2024-02-02
申请人: 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
摘要: 本公开提供了一种语音识别模型的训练方法和语音识别方法。该训练方法包括:获取训练音频数据;对训练音频数据进行编码处理,得到第一特征数据;通过初始关键文本子模型对关键文本数据进行特征提取,得到第二特征数据;通过初始特征融合子模型对第一特征数据和第二特征数据进行特征融合,得到第三特征数据;对与第一特征数据和第三特征数据相对应的第四特征数据进行解码处理,得到训练音频数据对应的识别文本数据;基于识别文本数据和标注文本数据,训练初始关键文本子模型和初始特征融合子模型,以基于训练完成的关键文本子模型和训练完成的特征融合子模型得到语音识别模型。通过该方法训练得到的语音识别模型能够提升对关键词的语音识别效果。
-
公开(公告)号:CN118737145A
公开(公告)日:2024-10-01
申请号:CN202410911031.6
申请日:2024-07-08
申请人: 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
摘要: 本发明公开了语音识别的方法、装置、电子设备和存储介质,涉及计算机技术领域。该方法的一具体实施方式包括:响应于语音识别指令,获取待处理信息,调用预设生成模型,生成待处理信息的编码特征;获取语音识别指令对应领域的热词集合,以计算热词集合的词向量;调用预设的计算模型,基于编码特征和词向量计算初始权重矩阵;筛选初始权重矩阵中不满足预设条件的参数集合,以将参数集合更新为预设值,得到更新后的权重矩阵;基于更新后的权重矩阵和编码特征,确定待处理信息的识别结果。该实施方式能够解决对出现的频率较低的命名实体名词等识别效果较差,导致识别准确性较低的问题。
-
公开(公告)号:CN118136020A
公开(公告)日:2024-06-04
申请号:CN202410256835.7
申请日:2024-03-06
申请人: 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
摘要: 本发明公开了一种语音识别的方法和装置,涉及人工智能技术领域。语音识别的方法的一具体实施方式包括:响应于接收到目标语音,获取与所述目标语音关联的目标文本,从所述目标文本中识别出文本关键词;将所述目标语音和所述文本关键词融合为目标特征向量;对所述目标特征向量进行解码,得到所述目标语音的识别文本。该实施方式将目标文本中的文本关键词与目标语音融合,对融合结果进行解码,得到目标语音的识别文本,能够提高语音识别效率和准确性,提高用户使用体验。
-
公开(公告)号:CN118116369A
公开(公告)日:2024-05-31
申请号:CN202410232013.5
申请日:2024-02-29
申请人: 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
摘要: 本公开提供一种声学模型预训练方法、模型训练方法及装置、存储介质。声学模型预训练方法包括:获取关键词的音素序列;利用声学模型获取音素序列中的第i个音素的声学帧在当前轮次的帧向量,1≤i≤N,N为音素总数;利用帧向量,对第i个音素在前一轮次的结构向量进行更新,以得到第i个音素在当前轮次的结构向量;根据每个音素在当前轮次的结构向量和每个音素的声学帧在当前轮次的帧向量,确定第一目标损失函数;根据目标损失函数对声学模型进行训练。
-
公开(公告)号:CN116644382A
公开(公告)日:2023-08-25
申请号:CN202310641771.8
申请日:2023-06-01
申请人: 京东科技信息技术有限公司
IPC分类号: G06F18/25 , G06F18/22 , G06F7/78 , G06N3/045 , G06N3/0464 , G06N3/09 , G06N3/0895 , G06N3/084 , G06N3/082
摘要: 本发明公开了一种模型的融合方法、装置和计算机可读存储介质,涉及机器学习领域。模型的融合方法包括:根据来自第一模型的第一参数矩阵和来自第二模型的第二参数矩阵,确定对齐参数,其中,第一模型和第二模型具有相同的模型结构、但通过不同的方式训练得到,第一参数矩阵和第二参数矩阵分别为第一模型和第二模型中相同参数的值构成的矩阵;利用对齐参数对第一参数矩阵进行调整,获得第三参数矩阵;根据第二参数矩阵和第三参数矩阵,确定第三模型,其中,第三模型具有模型结构。从而,可以基于对齐的模型进行模型的融合,使得融合后的模型兼有不同训练方式的优点,提高了模型的性能。并且,推理计算成本较低,具有较高的计算效率。
-
-
-
-
-
-
-
-
-