-
公开(公告)号:CN112614514B
公开(公告)日:2024-02-13
申请号:CN202011479131.4
申请日:2020-12-15
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种有效语音片段检测方法、相关设备及可读存储介质,该方案中,针对待检测的音频信号,在进行语音片段检测,得到至少一个语音片段之后,针对每个语音片段,至少基于该语音片段对应的文本内容,对该语音片段进行有效性检测,从而判断该语音片段是否为有效语音片段。由于该方案中基于语音片段对应的文本内容对语音片段的有效性进行了进一步检测,相对于将检测出的语音片段直接作为有效语音片段,提升了有效语音片段的检测准确率。
-
公开(公告)号:CN117253473A
公开(公告)日:2023-12-19
申请号:CN202310998098.3
申请日:2023-08-07
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,其中,语音识别方法包括:获取待识别语音,并获取语音识别模型;基于语音识别模型对待识别语音中音频帧进行识别,得到待识别语音的识别文本;其中,语音识别模型至少基于样本识别文本与语音识别模型对样本语音的预测识别文本之间的差异调整网络参数,预测识别文本中的预测解码字符基于语音识别模型对目标音频帧和目标字符进行解码预测得到,目标音频帧为样本语音中对齐于样本识别文本中样本字符的样本音频帧,目标字符在样本识别文本中位于对齐于目标音频帧的样本字符之前。上述方案,能够尽可能地减少语音识别模型的显存使用量,特别是在模型训练过程,以提升语音识别模型的处理速度。
-
公开(公告)号:CN117116292A
公开(公告)日:2023-11-24
申请号:CN202311058371.0
申请日:2023-08-21
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种音频检测方法、装置、电子设备及存储介质。音频检测方法包括:提取待检测音频数据的第一声学特征数据;基于第一声学特征数据,检测待检测音频数据的篡改类别;在篡改类别为目标篡改类别的情况下,利用与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置。本发明适用于检测不同篡改类别的音频数据,提高音频检测的效果。
-
公开(公告)号:CN116825099A
公开(公告)日:2023-09-29
申请号:CN202310641362.8
申请日:2023-05-31
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , G10L15/26 , G10L15/24 , G10L25/57 , G06V20/40 , G06V10/40 , G06V10/80 , G06F18/25 , G06F18/24 , G06F18/214 , G06F18/23213
Abstract: 本发明提供了一种语音识别方法、装置、设备及存储介质,语音识别方法包括:获取指定领域的目标语音和目标视频,其中,目标语音为目标视频的视频画面内容的解说语音;从目标视频的视频画面中检测实体,得到第一目标实体;从指定领域的知识图谱中获取第一目标实体的知识信息;辅以第一目标实体的知识信息,对目标语音进行语音识别,得到目标语音的语音识别结果。本发明从解说语音的特点出发,提出从目标视频的视频画面中检测实体,并从知识图谱中获取检测出的实体的知识信息,进而辅以获得的实体知识信息对目标语音进行识别,在对目标语音进行识别时,辅以从目标视频的视频画面中检测出的实体的知识信息,能够获得较为准确的语音识别结果。
-
公开(公告)号:CN116580725A
公开(公告)日:2023-08-11
申请号:CN202310513866.1
申请日:2023-05-08
Applicant: 科大讯飞股份有限公司
IPC: G10L25/87 , G10L25/51 , G10L25/30 , G10L25/03 , G10L25/57 , G06N3/0442 , G06N3/0464 , G06N3/044 , G06N3/08
Abstract: 本发明提供了一种语音端点检测方法、装置、设备及存储介质,语音端点检测方法包括:获取目标数据,目标数据包括目标音频数据;将目标数据输入预先训练得到的音频帧分类模型,得到目标音频数据的音频帧的分类结果,其中,音频帧分类模型以带有若干噪声类别中的一个或多个类别的噪声的第一音频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,多个维度包括语音维度和若干噪声类别分别对应的噪声维度;根据目标音频数据的音频帧的分类结果确定语音端点。本发明提供的语音端点检测方法能够检测出准确的语音端点。
-
公开(公告)号:CN116229949A
公开(公告)日:2023-06-06
申请号:CN202211718321.6
申请日:2022-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种音频识别方法和音频识别模型的训练方法,所述音频识别方法,包括:获取待识别的音频数据;利用预先训练的音频识别模型,对所述待识别的音频数据进行音频识别处理,得到与所述音频数据对应的文本数据;其中,所述音频识别模型基于对第一音频识别模型中与音频识别任务相关的模型参数进行掩码梯度更新获得;所述第一音频识别模型通过利用包含文本伪标签的第一音频数据和包含文本标签的第二音频数据,对初始音频识别模型进行音频识别训练获得,所述文本伪标签由所述初始音频识别模型对所述第一音频数据进行音频识别而确定。
-
公开(公告)号:CN116168688A
公开(公告)日:2023-05-26
申请号:CN202211635640.0
申请日:2022-12-19
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别模型的训练、语音识别方法、装置、设备及介质,其中方法包括:确定非流式识别分支和流式识别分支;获取所述非流式识别分支进行语音识别时提取的样本语音中各帧的第一语音特征,以及所述流式识别分支进行语音识别时提取的所述样本语音中各帧的第二语音特征;对所述各帧的第一语音特征进行聚类,得到多个第一特征簇;将所述各帧的第二语音特征划分至所述多个第一特征簇,并基于所述第二语音特征所属的第一特征簇,确定特征提取损失;基于所述特征提取损失,对所述流式识别分支进行参数迭代,得到所述语音识别模型。本发明提供的方法、装置、电子设备及存储介质,进一步提高流式识别分支的语音识别结果的可靠性和准确性。
-
公开(公告)号:CN115762497A
公开(公告)日:2023-03-07
申请号:CN202211394389.3
申请日:2022-11-08
Applicant: 科大讯飞股份有限公司
IPC: G10L15/18 , G10L19/16 , H04N21/4402 , G06F40/279 , G06F40/242 , G06F16/332
Abstract: 本发明提供一种语音识别方法、装置、人机交互设备和存储介质,其中方法包括:确定待识别语音所处环境的环境视频;基于所述环境视频的视频描述文本,对所述视频描述文本进行实体抽取,并基于实体抽取结果更新关键词库,和/或,对所述视频描述文本进行实体关系抽取,并基于实体关系抽取结果更新知识图谱;基于更新后的关键词库和/或更新后的知识图谱,对所述待识别语音进行语音识别。本发明提供的语音识别方法、装置、人机交互设备和存储介质,可以形成针对用户的个性化知识,能够拓展符合用户习惯或者匹配当前环境信息的文本语料,从而提高语音识别的准确性,提升语音命令交互成功率,改善用户体验。
-
公开(公告)号:CN115718433A
公开(公告)日:2023-02-28
申请号:CN202211437928.7
申请日:2022-11-15
Applicant: 科大讯飞股份有限公司
IPC: G05B15/02 , G05B19/418
Abstract: 本申请提出一种智能设备的控制方法、装置、智能系统和存储介质,能够根据目标用户的状态信息,分析目标用户对智能设备的潜在控制行为,目标用户的状态信息包括目标用户的行为动作信息和/或生理参数信息,从活跃智能设备中确定出与潜在控制行为对应的目标智能设备,其中,活跃智能设备包括能够被目标用户控制的智能设备,以便于根据潜在控制行为,对目标智能设备进行控制,进而实现了根据用户的状态信息主动对智能设备进行控制,不需要用户主动提出的需求,不仅使用方便,还能够提升用户体验。
-
公开(公告)号:CN115660629A
公开(公告)日:2023-01-31
申请号:CN202211310689.9
申请日:2022-10-25
Applicant: 科大讯飞股份有限公司
IPC: G06Q10/1093
Abstract: 本申请提供了一种信息生成方法、装置、设备及存储介质,具体实现方案为:获取待办事项信息;根据所述待办事项信息确定对应的关联信息;利用所述关联信息和所述待办事项信息生成目标待办事项信息,根据本申请的技术方案,能够实现智能化的生成待办事项。
-
-
-
-
-
-
-
-
-