具有未知数量的多个说话者的话音分离

    公开(公告)号:CN115104153A

    公开(公告)日:2022-09-23

    申请号:CN202080096429.9

    申请日:2020-12-14

    申请人: 元平台公司

    摘要: 在一个实施例中,一种方法包括:接收混合音频信号,该混合音频信号包括与多个说话者相关联的话音信号的混合;通过使用配置有第一数量的输出通道的第一机器学习模型处理混合音频信号来生成第一音频信号;基于第一音频信号来确定第一数量的输出通道中的至少一个输出通道是无声的;通过使用配置有第二数量的输出通道的第二机器学习模型处理混合音频信号来生成第二音频信号,第二数量的输出通道比第一数量的输出通道少;基于第二音频信号来确定第二数量的输出通道中的每个输出通道是非无声的;并且使用第二机器学习模型来分离与多个说话者相关联的附加混合音频信号。

    一种基于EMD-Wavelet的MFCC相似度的语音段检测方法

    公开(公告)号:CN109410977B

    公开(公告)日:2022-09-23

    申请号:CN201811553681.9

    申请日:2018-12-19

    申请人: 东南大学

    摘要: 本发明公开了一种基于EMD‑Wavelet的MFCC相似度的语音段检测方法。采集说话人的语音信号作为源信号;利用经验模态分解(EMD)对含噪的语音信号进行分解,得到体现语音信号高低频能量的各阶本征模函数(IMF);以各阶IMF分量的自相关系数的方差确定噪声为主导模态的IMF阶数,对噪声为主导模态的IMF进行小波阈值降噪,用降噪后的低阶IMF分量和余下的高阶IMF分量重构,获得降噪后的语音信号;计算语音信号的Mel倒谱参数(MFCC),以欧氏距离作为语音信号MFCC相似度的测度;从相似度曲线中可以明显区分语音段和噪声段,从而实现语音段的提取。相比于传统的检测方法,本发明具有更好的鲁棒性和适应性,语音段检测的准确率更高,能够很好的应用于语音信号的语音段提取。

    一种主播肢体动作节奏的自适应调整方法

    公开(公告)号:CN115065844A

    公开(公告)日:2022-09-16

    申请号:CN202210568788.0

    申请日:2022-05-24

    发明人: 包英泽

    摘要: 本发明涉及一种主播肢体动作节奏的自适应调整方法,采用全新音视频处理策略,首先获得目标音频中的各个音频片段,接着依次针对各音频片段,基于视频帧之间的知觉差异值的考虑,在目标视频中顺序查找音频片段所对应的起始视频帧,并据此完成音频片段与目标视频上对应位置的同步,最终实现目标音频与目标视频之间的同步;设计方法执行中,能够准确查找到各音频片段与目标视频间的对应关系,并完成彼此间的同步,有效提高了音视频合成处理的效率。

    一种基于睡眠的音频识别方法、装置、床垫及存储介质

    公开(公告)号:CN114724550B

    公开(公告)日:2022-09-06

    申请号:CN202210649795.3

    申请日:2022-06-10

    发明人: 王炳坤

    摘要: 本发明公开了一种基于睡眠的音频识别方法、装置、床垫及存储介质。该方法应用于床垫,床垫内设置有声音采集器件,该方法包括:通过声音采集器件获取预设睡眠时段内的音频数据;基于预设处理方式对音频数据进行处理,得到音频特征数据;将音频特征数据输入至预设梦语识别模型中,并根据预设梦语识别模型的输出结果确定梦语识别结果,其中,预设梦语识别模型为深度学习模型,梦语识别结果中包括音频数据中是否包含梦语;向与床垫预先绑定的终端设备发送梦语识别结果,以供终端设备对梦语识别结果进行显示处理,其应用于床垫中可以检测出床垫使用者在睡眠过程中是否频繁出现说梦语的情况,让床垫使用者可以更加全面且准确的了解自己的睡眠情况。

    基于麦克风信号的语音交互唤醒电子设备、方法和介质

    公开(公告)号:CN110097875B

    公开(公告)日:2022-09-02

    申请号:CN201910475949.X

    申请日:2019-06-03

    申请人: 清华大学

    发明人: 史元春 喻纯

    摘要: 提供了一种内置有麦克风的智能电子设备,所述智能电子便携设备如下操作与用户进行基于语音输入的交互:处理麦克风捕获的声音信号判断声音信号中是否存在语音信号;响应于确认声音信号中存在语音信号,基于麦克风采集的声音信号进一步判断智能电子设备与用户的嘴部距离是否小于预定阈值;响应于确定电子设备与用户嘴部距离小于预定阈值,将麦克风采集的声音信号作为语音输入处理。该交互方法适用于用户在携带智能电子设备时进行语音输入,操作自然且简单,简化了语音输入的步骤,降低交互负担和难度,使得交互更加自然。

    使用视听数据进行说话分类

    公开(公告)号:CN112889108B

    公开(公告)日:2022-08-16

    申请号:CN201980068550.8

    申请日:2019-10-03

    IPC分类号: G10L17/10 G10L25/78

    摘要: 用于生成针对目标人物在视频的部分期间是否正在说话的预测的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括:获得每个图像描绘在相应时间点给定人物的嘴部的一个或多个图像。使用图像嵌入神经网络处理图像,以生成图像的潜在表示。使用音频嵌入神经网络处理对应于图像的音频数据,以生成音频数据的潜在表示。使用循环神经网络处理图像的潜在表示和音频数据的潜在表示,以生成针对给定人物是否正在说话的预测。

    具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端

    公开(公告)号:CN110767226B

    公开(公告)日:2022-08-16

    申请号:CN201911048283.6

    申请日:2019-10-30

    摘要: 本发明公开的一种具有高准确度的声源定位方法及装置,包括:采集声音信号;判断声音信号中是否存在语音信号;提取出所有的语音信号,获取每一个语音信号所在的声源位置;将每一个语音信号一一进行声纹识别;判断识别出的声纹特征是否已存储于声纹数据库中;获取该声纹特征对应的语音信号所在的声源位置处的图像信息;利用机器自学习方法进行模型训练,确定该声纹特征对应的发声人及其身份信息,并将对应的声纹特征和发声人身份信息存储于声纹数据库中;显示该声纹特征对应的语音信号所在的声源位置信息以及对应的发声人的身份信息。本发明能够准备地定位说话人的位置、匹配说话人的身份以及说话的内容;适用于语音识别领域。

    耳机装置、语音处理系统和语音处理方法

    公开(公告)号:CN114882871A

    公开(公告)日:2022-08-09

    申请号:CN202210322042.1

    申请日:2018-10-29

    摘要: 本发明实施例公开了一种耳机装置、语音处理系统和语音处理方法。所述耳机装置包括:发声相关信号采集模块,其配置为采集与耳机装置的佩戴者发声相关联的信号;语音活性检测模块,其配置为接收来自发声相关信号检测模块的信号,并检测所接收的信号中是否存在语音;第一麦克,其配置为采集语音信号;以及关键字检测模块,其配置为:在所述语音活性检测模块检测到所接收的信号中存在语音的情况下,接收来自第一麦克的语音信号并基于所接收的语音信号执行关键字检测。该耳机装置、语音处理系统和语音处理方法能够以较低功耗实现关键字的检测乃至语音识别。

    一种音视频检测方法、装置、电子设备及存储介质

    公开(公告)号:CN114842882A

    公开(公告)日:2022-08-02

    申请号:CN202210027285.2

    申请日:2022-01-11

    IPC分类号: G10L25/78 H04N17/00

    摘要: 本发明公开了一种音视频检测方法、装置、电子设备及存储介质,其中,该方法包括:获取待检测音视频,确定所述待检测音视频的待检测音视频来源;若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同,则对所述待检测音视频进行音频检测和视频检测,得到音频检测结果和视频检测结果;若所述音频检测结果和所述视频检测结果均满足预设检测条件,则确定待检测音视频的结果为正常音视频。解决了通过人力检测视频中是否存在非正常音频信息或视频图像信息时,需要较大的人力资源、检测效率低且可能出现漏检的问题,实现了自动的,实时的识别网络中的音视频是否为正常音视频的效果。