-
公开(公告)号:CN114863916B
公开(公告)日:2024-11-12
申请号:CN202210445742.X
申请日:2022-04-26
申请人: 北京小米移动软件有限公司 , 北京小米松果电子有限公司
摘要: 本公开是关于一种语音识别模型训练方法、语音识别方法、装置及存储介质。其中,语音识别模型训练方法包括:获取多通道语音样本集,将所述多通道语音样本集输入到第一深度残差网络编码器中,得到第一样本特征集,对所述多通道语音样本集进行转换处理,得到单通道语音样本集,将所述单通道语音样本集输入到第二深度残差网络编码器中,得到第二样本特征集;从所述第一样本特征集和所述第二样本特征集中选择目标样本特征集;将所述目标样本特征集输入至预设的递归神经网络模型,对所述递归神经网络模型进行训练直至收敛,得到语音识别模型。通过本公开的语音识别模型训练方法进行语音识别,能够提高语音识别性能。
-
公开(公告)号:CN113920534B
公开(公告)日:2024-11-12
申请号:CN202111169577.1
申请日:2021-10-08
申请人: 北京领格卓越科技有限公司
IPC分类号: G06V40/10 , G06V40/16 , G06V40/20 , G06V10/40 , G06N3/0464 , G06N3/08 , G10L15/04 , G10L15/26
摘要: 本发明涉及一种视频精彩片段提取方法、系统和存储介质。所述方法包括:获取待处理网课视频和师生交互特征并将待处理网课视频的划分成多个目标视频,对目标视频的所有帧对应的图片分别进行人脸表情分析、眼动注意力分析和手势肢体动作分析得到各帧对应的图片中学生的视觉特征集合和教师的视觉特征集合;根据目标视频的音频中学生对应的语音片段和教师对应的语音片段的时间间隔确定学生反馈的及时性;对学生和教师对应的语音片段进行语音识别和提取关键字确定教师语言的流畅性、学生语言的流畅性和教学知识的正确性;根据各目标视频的优先度确定待处理网课视频中的精彩片段。本发明具有较强的可解释性,方便使用人员根据需求调整参数。
-
-
公开(公告)号:CN118921500A
公开(公告)日:2024-11-08
申请号:CN202411069057.7
申请日:2024-08-06
申请人: 云伴数字科技(安徽)有限公司
IPC分类号: H04N21/2187 , H04N21/435 , H04N21/439 , H04N21/4788 , G10L15/26
摘要: 本发明公开了一种基于人工智能的直播交互系统及信息获取方法,具体涉及人工智能领域,其一种基于人工智能的直播交互系统的信息获取方法,包括如下步骤:步骤S100,采集弹幕中的文字信息;步骤S200,对文字信息中的情感文字进行提取分析;步骤S300,将提取的情感文字输送到数据库中进行对比;步骤S400,根据对比的结果,反馈给主播,步骤S100具体包括以下步骤:设置转换列表,用于将语音信息转换为文字信息,并将文字信息进行存储;设置过滤列表。本发明能够根据对比结果来对直播效果进行反馈,方便直播人员进行针对性的调整,能够根据观众的实时反馈动态调整内容,提高了直播的互动性和吸引力,有效处理多语言环境下的直播需求。
-
公开(公告)号:CN118918894A
公开(公告)日:2024-11-08
申请号:CN202410974702.3
申请日:2024-07-19
申请人: 国网冀北电力有限公司唐山供电公司 , 国家电网有限公司
发明人: 秦浩然 , 杨小强 , 李征 , 董杰 , 田新成 , 于勇 , 于海峰 , 轩景刚 , 焦扬 , 高岭 , 张硕冰 , 王涛 , 刘晓琳 , 陈学伟 , 邓燕山 , 才东阳 , 吴耀华 , 赵文炎 , 韩佳奇 , 董一兵
摘要: 本发明公开了一种基于语音识别的智能电力工具箱及存取方法,涉及电力行业的工器具存储及保管技术领域,包括:电力工具箱本体和中央处理器,电力工具箱本体的内部的存放架设置有多个用于分类存放电力工器具的托盘;电力工具箱本体的内部还设置有语音识别模块,语音识别模块用于识别“存取”或“归还”指令以及多种电力工器具的名称;中央处理器根据语音识别模块的指令,找到需要拿取或存放的电力工器具所在托盘的位置,并驱动存放架旋转,以将对应的托盘传送至开闭门的正下方。本发明从智能化角度出发,能够根据工作人员的指令准确提供所需要的电力工器具,同时,便于将电力工器具准确归还,极大地提高了拿取和归还电力工器具的效率。
-
公开(公告)号:CN118916834A
公开(公告)日:2024-11-08
申请号:CN202410967443.1
申请日:2024-07-18
申请人: 北京中科睿途科技有限公司
IPC分类号: G06F18/25 , B60W40/09 , B60W50/00 , G10L15/26 , G10L25/30 , G10L25/24 , G10L25/51 , G06F18/213 , G06V20/59 , G06N3/045
摘要: 本说明书实施例提供用于司机行为预测的多模态数据融合方法及装置,其中用于司机行为预测的多模态数据融合方法包括:获取初始数据;其中,初始数据包括图像数据、音频数据和车辆状态数据;基于初始数据的类别确定数据预处理规则,并基于数据预处理规则对初始数据进行处理,确定多模态特征;基于多模态特征的类别进行数据融合,确定融合特征。通过获取初始数据;基于初始数据的类别确定数据预处理规则,并基于数据预处理规则对初始数据进行处理,确定多模态特征;基于多模态特征的类别进行数据融合,确定融合特征,可以实现将不同数据源的信息整合在一起,以更全面和准确地捕捉驾驶员行为的特征。
-
公开(公告)号:CN111931511B
公开(公告)日:2024-11-08
申请号:CN201910342294.9
申请日:2019-04-26
申请人: 中国电力科学研究院有限公司 , 国网浙江省电力有限公司 , 国网上海能源互联网研究院有限公司 , 国家电网有限公司
摘要: 本发明提供了一种基于广域分布式架构的语义分析方法,包括:分布式投诉采集点采集投诉信息,并将所述投诉信息转换为文本语义数据;基于所述文本语义数据进行故障原因分析、故障地点分析和故障分类分析;根据分析结果,按照预先设定的班组职责,进行任务派发。本发明提供的技术方案将语义分析的工作划分为多个节点进行分析,可以承担更多用户和资源分析规模上的扩展,也可以进行远距离的操作,地域扩展性好。此外,多个广域节点共同完成故障类型分析后,将分析结果统一存储和分配任务,灵活性好。
-
公开(公告)号:CN118692446B
公开(公告)日:2024-11-05
申请号:CN202411192430.8
申请日:2024-08-28
申请人: 深圳市贝铂智能科技有限公司
发明人: 车建波
IPC分类号: G10L15/00 , G10L15/02 , G10L15/06 , G10L15/16 , G10L15/183 , G10L15/26 , G06F40/279 , G06F40/263 , G06F40/58
摘要: 本发明提供了一种多模态融合的语音翻译方法、系统以及设备,包括:对输入的语音信号进行音频特征提取处理,得到音频特征数据;获取与所述语音信号相关联的文本信息,对所述文本信息进行文本特征提取处理,得到文本特征数据;采用自适应权重分配融合策略,对所述音频特征数据和文本特征数据进行融合处理,得到融合特征数据;基于多级编码单元对所述融合特征数据进行编码处理,得到编码特征;其中,在所述多级编码单元中,串联的每一级编码单元分别采用不同的编码算法,并依据前一级的输出结果进行编码参数自适应调整;将所述编码特征输入至预先训练的翻译模型中进行翻译处理,得到语音翻译结果。在本发明中,提升了翻译结果的准确性。
-
公开(公告)号:CN118588061B
公开(公告)日:2024-11-05
申请号:CN202411053706.4
申请日:2024-08-02
申请人: 深圳唯创知音电子有限公司
摘要: 本申请揭示了一种基于语音识别的设备控制方法、系统、设备及存储介质,其中方法包括:在所述目标设备的工作模式为离线识别模式时,获取目标语音特征,其中,所述目标语音特征是所述语音芯片或者移动终端基于第一语音数据提取得到的语音特征,所述第一语音数据是用户通过所述目标设备或者所述移动终端输入的语音数据;根据所述目标语音特征,在所述目标设备的本地存储空间中的语音特征库中匹配语音特征,得到第一匹配结果;根据所述第一匹配结果生成第一指令集,所述目标设备通过所述设备控制指令控制与所述设备控制指令对应的可控设备。从而提高了语音控制设备的准确度。
-
公开(公告)号:CN118887956A
公开(公告)日:2024-11-01
申请号:CN202411137459.6
申请日:2024-08-19
申请人: 厦门亿联网络技术股份有限公司
摘要: 本申请涉及智能语音交互技术领域,公开了一种用于麦克风阵列会议设备的语音识别方法及装置,其方法包括获取任一单通道的输入音频;采用预设的3A模型对输入音频进行频带建模,融合提取的特征,经过复数网络计算,得到一个掩码作用于输入音频以得到目标音频;将目标音频输入预设的语音唤醒模型,确定唤醒词的音频段;判断是否存在人声;若存在人声,则利用预设的提取模型提取唤醒人声纹特征,确定唤醒人的音频段;将当前帧的唤醒人的音频段输入预设的人声识别模型进行人声指令识别,得到唤醒人的人声指令,通过语言模型识别人声指令对应的意图,并响应唤醒人的人声指令。本申请具有在会议室多人讲话的场景下,改善人声指令和唤醒词识别精度的效果。
-
-
-
-
-
-
-
-
-