一种端到端语音转换模型及其训练方法、推理方法

    公开(公告)号:CN116364098A

    公开(公告)日:2023-06-30

    申请号:CN202310130695.4

    申请日:2023-02-17

    Abstract: 本申请提供了一种端到端语音转换模型及其训练方法、推理方法,该模型以条件变分编码器为基础,训练时将声学模型与声码器共同训练,避免训练与推理的不匹配。使用大规模预训练Hubert模型来提取内容信息表征,既可初步剥离内容表征中的说话人信息,也丰富了内容表征中的声韵学信息。通过使用梯度反转方法,进一步剥离内容信息表征中的说话人信息,从而避免音色泄露。通过码本量化方法,简化了内容表征的复杂度,并提升了音色剥离能力。此外,通过采用基于KL散度的模型蒸馏方法,将计算复杂的内容提取器蒸馏至计算更加高效的学生网络中,极大减小了模型的计算复杂度。

    远端会议装置的近端控制方法、远程会议系统及相关装置

    公开(公告)号:CN116312510A

    公开(公告)日:2023-06-23

    申请号:CN202310048331.1

    申请日:2023-01-31

    Abstract: 本申请提供了一种远端会议装置的近端控制方法、远程会议系统及相关装置,其中方法包括:近端会议装置根据用户的控制操作,通过音频水印生成算法,将对应的控制指令以音频水印的方式嵌入到语音数据流中,通过上行通道传输给远端会议装置。远端会议装置从下行通道接收语音数据流,并不断检测其中是否包含音频水印,如果检测到包含音频水印,则通过音频水印提取算法抽取并解析音频水印中包含的控制指令,根据控制指令执行相应的调节动作。通过采用音频水印技术来传送控制指令,实现了从近端会议装置直接操控远端会议装置拾音音量和质量,改善了远程会议的用户体验。由于采用音频水印技术,既不影响通话,又无需额外增加网络传输控制协议。

    一种极轻量级图像超分辨率重建方法

    公开(公告)号:CN115760571A

    公开(公告)日:2023-03-07

    申请号:CN202211423249.4

    申请日:2022-11-15

    Abstract: 本申请涉及图像恢复技术,属于深度学习领域,具体涉及一种极轻量级图像超分辨率重建方法,该方法所使用的图像超分网络模型按顺序包含:单通道输入的浅层特征提取模块、由多个ACRB模块串联组成的深层特征提取模块、对深度特征进行像素注意力加权的注意力增强模块、将浅层特征和深层特征进行融合的特征融合模块、以及带有ClipRelu约束异常值的上采样放大模块。本方法通过超分重建时图像的RGB通道和Y通道的转换,可以在移动端很方便地并行处理,使得整个超分方法节省并有效利用移动端有限的计算资源,并且还能够保持有高质量的超分效果。

    一种基于超声的多目标二维室内定位系统及方法

    公开(公告)号:CN117784144A

    公开(公告)日:2024-03-29

    申请号:CN202311777680.3

    申请日:2023-12-22

    Abstract: 本发明公开了一种基于超声的多目标二维室内定位系统及方法,该系统包括:超声信号生成模块,用于得到超声数字信号并以固定的时间周期重复播放;特征提取模块,用于对超声数字信号进行处理,得到深度神经网络模块的输入特征;深度神经网络模块,用于对输入特征进行处理,构建深度神经网络模型;目标追踪模块,根据深度神经网络模块输出的多个目标距离和角度,确定每一帧数据候选目标的距离和角度,进行坐标转换后输出多目标的坐标结果。本发明使用智能家居设备自带的喇叭和麦克风阵列,可实现稳定的多目标室内二维定位和追踪,并能够利用微弱信号检测定位静止状态下的目标,计算复杂度和内存消耗较小,可在智能家居有限的算力条件下完成实时部署。

    一种高效低延迟的声音事件检测的模型及其训练方法

    公开(公告)号:CN117727328A

    公开(公告)日:2024-03-19

    申请号:CN202311753513.5

    申请日:2023-12-19

    Abstract: 本发明涉及一种高效低延迟的声音事件检测的模型及其训练方法,采用Vit作为模型骨干,具有更强的信息抽取能力,相较于卷积结构具有更高效的矩阵运算效率,对声学表征的时域、频域进行独立建模,可以根据设备性能灵活选定输入序列的长度,极大地减小模型的延迟,提升推理效率;采用知识蒸馏的方式进行预训练,产出小、推理效率高的模型,并通过预训练使模型获得抽取声音事件表征的能力,利用先验知识使得模型具有良好的泛化性;在预训练模型的基础上,在少量目标事件的数据集上进行微调,产出目标事件的检测模型,而无需进行细粒度标注,省时省力。

    一种超轻量远距离的静态手势识别方法

    公开(公告)号:CN117711024A

    公开(公告)日:2024-03-15

    申请号:CN202311776861.4

    申请日:2023-12-22

    Abstract: 本发明公开了一种超轻量远距离的静态手势识别方法,包括以下步骤:将捕获到的视频帧送入人体检测模型进行人体定位,获得人体区域图像;将所有人体区域图像送入目标手势检测模型来对目标手势进行定位,获得目标手势区域图像;将所有目标手势区域图像送入目标手势分类模型来对目标手势进行分类识别。本发明提供的超轻量远距离的静态手势识别方法,使用基本的单目RGB相机获取视频数据即可,通过将任务解耦成多阶段,使得每个阶段的模型在训练过程可以使用更轻量的网络去更好地学习到的目标特征,并且独立优化,相比直接通过单个模型来从原始画面中获目标手势位置信息以及类别信息受到的背景噪声影响更少,有效识别距离更远,泛化能力更强。

    一种可区域增强的声学参量阵
    7.
    发明公开

    公开(公告)号:CN116939430A

    公开(公告)日:2023-10-24

    申请号:CN202310467811.1

    申请日:2023-04-27

    Abstract: 本发明公开了一种可区域增强的声学参量阵,包括以下构件组成:阵列总成、动力与支撑机构总成。阵列总成是其核心构件,包括阵列中心单元总成和围绕在中心单元旁边的至少两个超声发射器子阵列总成。本发明与现有技术相比,能实现将声阵列中所有超声发射器产生的声场在指定方向、指定距离的区域内汇聚增强的功能。从而既能在目标区域产生较高强度的声场,又能减小目标区域外的声音强度,更好地实现向指定区域播放声音的功能,在使用声阵列的过程中,可以手工或借由控制部件灵活地调整声音的播放区域。其结构简单,容易制造,成本低。

    一种声学级联设备的扬声器播放同步方法

    公开(公告)号:CN116896707A

    公开(公告)日:2023-10-17

    申请号:CN202310990746.0

    申请日:2023-08-08

    Abstract: 本发明公开了一种声学级联设备的扬声器播放同步方法,包括以下步骤:Step1:开始播放前,同步主控设备和各节点设备的播放进度,然后开始播放;Step2:经过T1时间播放后,重新同步主控设备和各节点设备的播放进度,继续播放;Step3:重复Step2,直到音频播放完毕或者主控设备发出停止播放指令。本发明提供的声学级联设备的扬声器播放同步方法中,通过主控设备发送播放进度到节点设备来同步各个设备的播放进度,通过超声通信方式来发送播放进度到各个节点设备,直接利用设备自带的扬声器和麦克风就可以实现播放同步,无需增加额外硬件成本。

    一种基于超声微动检测的噪声下语音识别优化方法及系统

    公开(公告)号:CN116705021A

    公开(公告)日:2023-09-05

    申请号:CN202310730397.9

    申请日:2023-06-20

    Abstract: 本发明公开了一种基于超声微动检测的噪声下语音识别优化方法及系统,该方法包括以下步骤:超声发射模块持续发送超声信号;超声接收模块持续接收超声信号;对接收到的超声信号进行预处理,得到活动物体反射波的差频信号;根据得到的差频信号,检测特定距离内是否有微动;如果有微动,则输出有语音,否则输出没有语音。本发明中,通过检测嘴唇微动来指示目标语音的存在与否,具有很好的噪声鲁棒性,利用智能设备自带的扬声器和麦克风发射和接收超声波来检测嘴唇是否微动,无需额外增加成本,准确度较高,实用性强,适合进行工业化推广使用。

Patent Agency Ranking