-
公开(公告)号:CN118737145A
公开(公告)日:2024-10-01
申请号:CN202410911031.6
申请日:2024-07-08
申请人: 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
摘要: 本发明公开了语音识别的方法、装置、电子设备和存储介质,涉及计算机技术领域。该方法的一具体实施方式包括:响应于语音识别指令,获取待处理信息,调用预设生成模型,生成待处理信息的编码特征;获取语音识别指令对应领域的热词集合,以计算热词集合的词向量;调用预设的计算模型,基于编码特征和词向量计算初始权重矩阵;筛选初始权重矩阵中不满足预设条件的参数集合,以将参数集合更新为预设值,得到更新后的权重矩阵;基于更新后的权重矩阵和编码特征,确定待处理信息的识别结果。该实施方式能够解决对出现的频率较低的命名实体名词等识别效果较差,导致识别准确性较低的问题。
-
公开(公告)号:CN116844534A
公开(公告)日:2023-10-03
申请号:CN202310300312.3
申请日:2023-03-24
申请人: 京东科技信息技术有限公司
摘要: 本发明公开了一种语音识别的方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括:针对语音识别场景接收到的语音数据划分成多个语音数据块,为每一个语音数据块增加多个填充语音帧,基于填充过的语音数据块执行提取包含设定数量语音帧的语音帧组,并利用预设语音识别模型处理输入的语音帧组中的语音帧以得到识别结果;其中预设语音识别模型包含的卷积核的数量与设定数量一致;本发明的实施例克服了现有技术中由于未考虑一个语音数据块中当前帧与当前帧之后的语音帧的语音信息的关联性而导致的语音识别准确率偏低的问题,提高了语音识别的效果。
-
公开(公告)号:CN116434735A
公开(公告)日:2023-07-14
申请号:CN202210006570.6
申请日:2022-01-04
申请人: 京东科技信息技术有限公司
摘要: 本申请提供一种语音识别方法、声学模型的训练方法、装置及设备。该语音识别方法包括:接收语音识别请求,语音识别请求包括目标语种的待识别语音;对待识别语音提取语音特征并输入第一声学模型,得到声学特征,声学特征包括待识别语音的可能性字符,第一声学模型是根据第一语音样本和第二语音样本,基于神经网络进行训练得到的用于识别语音数据中目标语种的可能性字符的模型,第一语音样本包括人工标定的多个语音样本和对应的目标语种的字符,第二语音样本包括采用第一语音样本训练的第二声学模型标定的多个语音样本和对应的目标语种的字符;根据声学特征确定目标语种的语音识别结果并输出。本申请的方法提高了目标语种的语音识别准确度。
-
公开(公告)号:CN116312478A
公开(公告)日:2023-06-23
申请号:CN202310282652.8
申请日:2023-03-21
申请人: 京东科技信息技术有限公司
摘要: 本公开提供一种多语种语音识别方法及系统,其中,该方法包括:获取待识别的多语种语音数据;将所述多语种语音数据输入到多语种语音识别模型中,获得所述多语种语音识别模型输出的多语种语音识别结果;其中,所述多语种语音识别模型是基于混合专家网络,并利用多语种样本语音数据以及所述多语种样本语音数据对应的多语种样本语音识别结果进行训练得到的。本公开提供的多语种语音识别方法,成本较低,能够有效提高针对多语种语音的识别精度和效率,从而提升了多语种语音识别结果的可靠性,便于推广应用。
-
公开(公告)号:CN113555034B
公开(公告)日:2024-03-01
申请号:CN202110887281.7
申请日:2021-08-03
申请人: 京东科技信息技术有限公司
摘要: 本公开涉及一种压缩音频识别方法、装置及存储介质,上述方法包括:获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。采用上述技术手段,解决现有技术中,语音识别模型对有损压缩音频的识别准确率较低等问题。
-
公开(公告)号:CN117238280A
公开(公告)日:2023-12-15
申请号:CN202311386996.X
申请日:2023-10-24
申请人: 京东科技信息技术有限公司
摘要: 本公开的实施例公开了语气词识别模型的生成方法和装置、音频数据分析方法。该生成方法的一具体实施方式包括:将训练样本数据中的样本音频,输入语气词识别模型中的语音识别子模型,得到样本音频的预测识别结果,其中,样本音频为包含有语气词的音频数据;将语音识别子模型中的目标网络层输出的中间层特征,输入语气词识别模型中的语气词意图识别子模型,得到预测意图;基于预测识别结果、预测意图、训练样本数据中与样本音频对应的文本标签和意图标签,对语气词识别模型进行调整训练,直至训练完成。该实施方式与语音识别技术有关,通过将语音识别子模型的中间层特征作为输入,来构建语气词意图识别子模型。有助于提高语气词意图识别的准确性。
-
公开(公告)号:CN117542349A
公开(公告)日:2024-02-09
申请号:CN202311602965.3
申请日:2023-11-28
申请人: 京东科技信息技术有限公司
摘要: 本公开涉及一种数据标注方法、装置和语音识别方法、装置,涉及计算机技术领域。该数据标注方法,包括:利用语音识别模型,对视频的音频流数据进行语音识别,以获取语音识别结果和语音识别结果的置信度;利用文本识别模型,对视频的字幕区域进行文本识别,以获取文本识别结果;根据置信度,对语音识别结果与文本识别结果进行融合处理,以确定最终识别结果;根据最终识别结果,对音频流数据进行标注。本公开的技术方案能够降低数据标注的人工成本,提高数据标注的效率。
-
公开(公告)号:CN116543756A
公开(公告)日:2023-08-04
申请号:CN202310620477.9
申请日:2023-05-29
申请人: 京东科技信息技术有限公司
摘要: 本公开提供一种语音识别模型训练方法、装置以及电子设备和计算机可读存储介质,涉及语音识别技术领域,上述语音识别模型训练方法可以包括:获取流式无标注语音、流式有标注语音、非流式无标注语音和非流式有标注语音;通过所述流式无标注语音和所述非流式无标注语音,对目标神经网络进行无监督训练,获得预训练模型;通过所述流式有标注语音和所述非流式有标注语音,对所述预训练模型进行参数微调,获得流式和非流式统一语音识别模型。通过本公开实施例提供的语音识别模型可以使得流式语音和非流式语音通过同一个语音识别模型进行识别,减少了模型训练过程和维护过程,提高了语音识别效率和准确率。
-
公开(公告)号:CN115101061A
公开(公告)日:2022-09-23
申请号:CN202210833610.4
申请日:2022-07-14
申请人: 京东科技信息技术有限公司
发明人: 付立
摘要: 本公开涉及语音识别领域,具体涉及一种语音识别模型的训练方法、装置、存储介质及电子设备。该语音识别模型的训练方法包括构建初始语音识别模型;固定第二初始参数,基于无标注数据集计算对比学习损失函数以将第一初始参数调整为第一中间参数;固定第一中间参数,基于有标注数据集计算第一联合损失函数以将第二初始参数调整为第二中间参数;基于有标注数据集计算第二联合损失函数,并根据第二联合损失函数对第一网络和第二网络进行训练,以调整第一中间参数和第二中间参数得到目标语音识别模型。本公开提供的语音识别模型的训练方法能够解决语音识别模型在标注数据不足时识别性能低的问题。
-
公开(公告)号:CN117351963A
公开(公告)日:2024-01-05
申请号:CN202311560513.3
申请日:2023-11-21
申请人: 京东城市(北京)数字科技有限公司 , 京东科技信息技术有限公司
IPC分类号: G10L15/32 , G10L15/183 , G10L15/16
摘要: 本公开的实施例涉及用于语音识别的方法、装置、设备和可读介质。方法包括:基于从第一语音中识别到的至少一个第一候选文本序列,向前缀树添加分别表示至少一个第一候选文本序列的至少一个第一节点;基于从第二语音中识别到的至少一个第二候选文本序列,向前缀树添加分别表示至少一个第二候选文本序列的至少一个第二节点;确定多个文本序列各自对应的得分;从前缀树删除所述至少一条第一路径以删除至少一个第一节点,得到更新后的前缀树;以及至少基于更新后的前缀树,从未被删除的至少一个第一节点所表示的至少一个第一候选文本序列中确定与第一语音相匹配的第一目标文本序列。可以提高语音识别的效率。
-
-
-
-
-
-
-
-
-