-
公开(公告)号:CN118918901A
公开(公告)日:2024-11-08
申请号:CN202411162194.5
申请日:2024-08-22
申请人: 中移动金融科技有限公司 , 中国移动通信集团有限公司
摘要: 本申请公开了一种语音智能响应的方法、语音智能响应的装置和语音智能响应的系统,涉及智能语音交互的技术领域,包括:通过对采集的唤醒指令声纹进行标签分类得到标签分类声纹并录入,然后根据实时接收到的待识别语音输入获取对应的声纹,接着将获取的待识别语音输入的声纹与预设类别标签中的声纹进行对比分析得到逐步分析结果,对待识别语音输入进行基础语义理解得到语义理解结果,最后对语义理解结果进行对话管理并对待识别用户进行相对应的响应,达到了提高语音智能响应与用户身份的关联性的效果。
-
公开(公告)号:CN111785282B
公开(公告)日:2024-11-05
申请号:CN201910265991.9
申请日:2019-04-03
申请人: 阿里巴巴集团控股有限公司
发明人: 郑斯奇
摘要: 本申请公开了一种语音识别方法及装置和智能音箱,本申请使用根据近场语音和远场语音训练好的降噪自动编码器,将需要识别的语音信息的声纹特征向量,特别是远场的声纹特征向量,投影到了与近场声纹特征尽可能相似的空间,再利用降噪自动编码器输出的声纹特征向量实现后续对语音用户身份的识别,降低了由于说话人与设备之间的距离而带来的不能准确识别出远离设备的说话人身份的问题,提升了远场声纹识别的鲁棒性。
-
公开(公告)号:CN118865973A
公开(公告)日:2024-10-29
申请号:CN202411071640.1
申请日:2024-08-06
申请人: 岚图汽车科技有限公司
发明人: 程谦
摘要: 本发明公开了一种车辆语音交互唤醒方法、装置、设备及存储介质,属于语音交互技术领域。本方法先通过车内和车外两组麦克风阵列采集声音信号,当检测到环境音超过预设唤醒阈值时,提取并分析语音信息的声纹特征,与预设唤醒人声纹进行匹配,匹配成功则提取出人说话的语音信,接着,利用两组麦克风阵列在不同空间位置中的采集单元采集语音信息,并分析出声学特征声源的精确位置。如果确认声源在车内,则执行语音信息内相应的控制指令;若判断声源不在车内则终止语音交互。此方法有效提升了车辆语音交互系统的准确性和响应速度,同时确保了车辆语音交互控制的安全性。
-
公开(公告)号:CN118864937A
公开(公告)日:2024-10-29
申请号:CN202410866927.7
申请日:2024-06-28
申请人: 北京达佳互联信息技术有限公司 , 北京中科研究院 , 中国科学技术大学
IPC分类号: G06V10/764 , G06V20/40 , G06V40/16 , G06V10/40 , G06V10/80 , G06V10/82 , G06N3/096 , G06N3/0499 , G10L17/22 , G10L17/04
摘要: 本公开关于一种身份特征提取模型的训练方法、视频类别识别方法及装置,所述方法包括:获取样本对象的样本视频;对样本视频进行信息提取处理,得到样本图像集、样本初始图像以及样本语音信息;将样本初始图像输入第一教师网络,得到样本空间教师特征;将样本语音信息输入第二教师网络,得到样本时序教师特征;将样本图像集输入学生网络进行,得到样本图像特征;基于样本空间教师特征与样本图像特征之间的差异、样本时序教师特征与样本图像特征之间的差异,以及样本图像特征与样本身份特征标签之间的差异,对学生网络进行训练,得到身份特征提取模型。本公开提高了身份特征提取模型提取对象身份特征的准确率。
-
公开(公告)号:CN118762719A
公开(公告)日:2024-10-11
申请号:CN202410796513.1
申请日:2024-06-19
申请人: 河北科鑫达通讯科技有限公司
发明人: 肖长伟
IPC分类号: G10L25/51 , G10L17/22 , G10L15/22 , G10L15/26 , G08B21/02 , G01S13/88 , G06F40/284 , G06V20/52
摘要: 本发明公开了学生室内语言行为监管系统,本发明涉及学生监管技术领域。人员监测单元:行为目标生成基础信息,在环境区域内,监管目标获取所述基础信息,并根据所述基础信息对行为目标进行监控,该学生室内语言行为监管系统,通过对宿舍学生人数的设定,配合毫米波雷达的高分辨率使其能够检测到较小的物体,能够准确快速的实现人员活动的探测,实时对学生人数进行监管,配合人员监测的变化机制,对监管过程中的外界干扰因素进行剔除,提升监管系统的准确性,再利用噪音识别进行分级管理,在避免噪音影响宿舍的同时,还能避免过于灵敏的识别过程,监管系统起到一个稳定有效的预警效果。
-
公开(公告)号:CN118737140A
公开(公告)日:2024-10-01
申请号:CN202410734441.8
申请日:2024-06-06
申请人: 海信视像科技股份有限公司
发明人: 马明
摘要: 本申请实施例公开一种语音处理方法及电子设备,该方法包括:对声音采集器采集的语音信号进行唤醒词识别;在从所述语音信号中识别到唤醒词时,对发出所述唤醒词的目标人声进行增强;对增强后的所述目标人声进行声纹识别,确定目标发声对象;从所述语音信号中提取目标发声对象的语音指令,响应所述语音指令。这样,电子设备通过对唤醒词进行识别和增强,锁定目标发声对象,建立唤醒词和语音指令的发声对象的强关联性,从而精准识别和响应语音指令,提升人机交互系统的性能。
-
公开(公告)号:CN118711588A
公开(公告)日:2024-09-27
申请号:CN202411027620.4
申请日:2024-07-30
申请人: 北京纽康曼科技有限责任公司 , 河南省立眼科医院
摘要: 本发明涉及语音控制技术领域,涉及一种基于语音调节的调焦方法,所述方法包括获取语音信号,语音信号包括眼科手术室中采集的语音信号;基于语音信号识别目标用户的身份,得到识别结果;根据识别结果得到目标用户对应的权限信息,并基于语音信号和权限信息判断目标用户是否具有对调焦装置发出控制指令的权限,得到判断结果;根据判断结果对语音信号进行预处理,得到预处理后的语音信号;根据预处理后的语音信号对调焦装置进行调焦,本发明基于用户的语音信息判断用户的权限,当控制指令满足用户权限时,再对语音信号进行进一步的预处理,从而实现调焦镜的快速调焦,提高调焦的效率和精度。
-
公开(公告)号:CN114550731B
公开(公告)日:2024-09-17
申请号:CN202210343564.X
申请日:2022-03-31
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种音频识别方法、装置、电子设备、可读存储介质以及计算机程序产品,涉及人工智能、安全认证技术以及声纹识别技术领域。具体实现方案为:基于待识别音频在频域对应的第一音频特征,确定所述待识别音频在实数域对应的第二音频特征;利用目标压缩函数对所述第二音频特征进行特征压缩,获得所述待识别音频对应的非线性音频特征,所述目标压缩函数为预先对可平滑对数压缩函数进行参数学习得到的,所述可平滑对数压缩函数中包括预设的可学习参数;基于所述非线性音频特征,确定所述待识别音频对应的音频识别结果。该方案能够在无需人工提取音频特征的情况下,高效的模拟出待识别音频的非线性,进而能够提高音频识别的安全性和识别效率。
-
公开(公告)号:CN118588092A
公开(公告)日:2024-09-03
申请号:CN202311353986.6
申请日:2023-10-18
申请人: 通用汽车环球科技运作有限责任公司
IPC分类号: G10L17/08 , G10L17/22 , G10L15/22 , G10L15/26 , G10L13/033 , G10L13/027
摘要: 提出了一种针对虚拟助手应用不必要的自调用的基于声音生物识别的解决方案。在各种实施例中,处理系统被配置为控制虚拟助手。处理系统可以在存储器中存储有至少一个声纹,所述至少一个声纹是基于来自虚拟助手的合成语音的已记录话语使用声音生物识别创建的。可以通过将使用合成语音话语创建的声纹与传入音频流进行匹配来使用所述至少一个声纹防止虚拟语音会话的自调用。
-
公开(公告)号:CN118553233A
公开(公告)日:2024-08-27
申请号:CN202310207161.7
申请日:2023-02-24
申请人: 影石创新科技股份有限公司
发明人: 请求不公布姓名
IPC分类号: G10L15/05 , G06F40/289 , G06F16/33 , G10L25/87 , G10L17/22
摘要: 本申请涉及一种语音流处理方法、装置、计算机设备及可读存储介质。该方法包括:获取根据用户的语音流创建的多种不同的语音帧生成的多个语音包,对各语音包进行识别确定语音流的当前语音场景信息,根据语音流的当前语音场景信息确定语音流的视频剪辑模板,并根据视频剪辑模板确定语音流的语音流识别结果。采用上述方法可以对整段语音流进行处理,获取语音流对应的视频剪辑模板。
-
-
-
-
-
-
-
-
-