语音识别模型训练方法、语音识别方法、装置及存储介质

    公开(公告)号:CN114863916B

    公开(公告)日:2024-11-12

    申请号:CN202210445742.X

    申请日:2022-04-26

    摘要: 本公开是关于一种语音识别模型训练方法、语音识别方法、装置及存储介质。其中,语音识别模型训练方法包括:获取多通道语音样本集,将所述多通道语音样本集输入到第一深度残差网络编码器中,得到第一样本特征集,对所述多通道语音样本集进行转换处理,得到单通道语音样本集,将所述单通道语音样本集输入到第二深度残差网络编码器中,得到第二样本特征集;从所述第一样本特征集和所述第二样本特征集中选择目标样本特征集;将所述目标样本特征集输入至预设的递归神经网络模型,对所述递归神经网络模型进行训练直至收敛,得到语音识别模型。通过本公开的语音识别模型训练方法进行语音识别,能够提高语音识别性能。

    一种视频精彩片段提取方法、系统和存储介质

    公开(公告)号:CN113920534B

    公开(公告)日:2024-11-12

    申请号:CN202111169577.1

    申请日:2021-10-08

    摘要: 本发明涉及一种视频精彩片段提取方法、系统和存储介质。所述方法包括:获取待处理网课视频和师生交互特征并将待处理网课视频的划分成多个目标视频,对目标视频的所有帧对应的图片分别进行人脸表情分析、眼动注意力分析和手势肢体动作分析得到各帧对应的图片中学生的视觉特征集合和教师的视觉特征集合;根据目标视频的音频中学生对应的语音片段和教师对应的语音片段的时间间隔确定学生反馈的及时性;对学生和教师对应的语音片段进行语音识别和提取关键字确定教师语言的流畅性、学生语言的流畅性和教学知识的正确性;根据各目标视频的优先度确定待处理网课视频中的精彩片段。本发明具有较强的可解释性,方便使用人员根据需求调整参数。

    一种基于人工智能的直播交互系统及信息获取方法

    公开(公告)号:CN118921500A

    公开(公告)日:2024-11-08

    申请号:CN202411069057.7

    申请日:2024-08-06

    发明人: 任指钢 完少波

    摘要: 本发明公开了一种基于人工智能的直播交互系统及信息获取方法,具体涉及人工智能领域,其一种基于人工智能的直播交互系统的信息获取方法,包括如下步骤:步骤S100,采集弹幕中的文字信息;步骤S200,对文字信息中的情感文字进行提取分析;步骤S300,将提取的情感文字输送到数据库中进行对比;步骤S400,根据对比的结果,反馈给主播,步骤S100具体包括以下步骤:设置转换列表,用于将语音信息转换为文字信息,并将文字信息进行存储;设置过滤列表。本发明能够根据对比结果来对直播效果进行反馈,方便直播人员进行针对性的调整,能够根据观众的实时反馈动态调整内容,提高了直播的互动性和吸引力,有效处理多语言环境下的直播需求。

    多模态融合的语音翻译方法、系统以及设备

    公开(公告)号:CN118692446B

    公开(公告)日:2024-11-05

    申请号:CN202411192430.8

    申请日:2024-08-28

    发明人: 车建波

    摘要: 本发明提供了一种多模态融合的语音翻译方法、系统以及设备,包括:对输入的语音信号进行音频特征提取处理,得到音频特征数据;获取与所述语音信号相关联的文本信息,对所述文本信息进行文本特征提取处理,得到文本特征数据;采用自适应权重分配融合策略,对所述音频特征数据和文本特征数据进行融合处理,得到融合特征数据;基于多级编码单元对所述融合特征数据进行编码处理,得到编码特征;其中,在所述多级编码单元中,串联的每一级编码单元分别采用不同的编码算法,并依据前一级的输出结果进行编码参数自适应调整;将所述编码特征输入至预先训练的翻译模型中进行翻译处理,得到语音翻译结果。在本发明中,提升了翻译结果的准确性。

    基于语音识别的设备控制方法、系统、设备及存储介质

    公开(公告)号:CN118588061B

    公开(公告)日:2024-11-05

    申请号:CN202411053706.4

    申请日:2024-08-02

    摘要: 本申请揭示了一种基于语音识别的设备控制方法、系统、设备及存储介质,其中方法包括:在所述目标设备的工作模式为离线识别模式时,获取目标语音特征,其中,所述目标语音特征是所述语音芯片或者移动终端基于第一语音数据提取得到的语音特征,所述第一语音数据是用户通过所述目标设备或者所述移动终端输入的语音数据;根据所述目标语音特征,在所述目标设备的本地存储空间中的语音特征库中匹配语音特征,得到第一匹配结果;根据所述第一匹配结果生成第一指令集,所述目标设备通过所述设备控制指令控制与所述设备控制指令对应的可控设备。从而提高了语音控制设备的准确度。

    一种用于麦克风阵列会议设备的语音识别方法及装置

    公开(公告)号:CN118887956A

    公开(公告)日:2024-11-01

    申请号:CN202411137459.6

    申请日:2024-08-19

    发明人: 陈纪锦 毕永建

    摘要: 本申请涉及智能语音交互技术领域,公开了一种用于麦克风阵列会议设备的语音识别方法及装置,其方法包括获取任一单通道的输入音频;采用预设的3A模型对输入音频进行频带建模,融合提取的特征,经过复数网络计算,得到一个掩码作用于输入音频以得到目标音频;将目标音频输入预设的语音唤醒模型,确定唤醒词的音频段;判断是否存在人声;若存在人声,则利用预设的提取模型提取唤醒人声纹特征,确定唤醒人的音频段;将当前帧的唤醒人的音频段输入预设的人声识别模型进行人声指令识别,得到唤醒人的人声指令,通过语言模型识别人声指令对应的意图,并响应唤醒人的人声指令。本申请具有在会议室多人讲话的场景下,改善人声指令和唤醒词识别精度的效果。