一种语音端点检测方法以及装置

    公开(公告)号:CN112863496B

    公开(公告)日:2024-04-02

    申请号:CN201911181820.4

    申请日:2019-11-27

    发明人: 袁斌

    摘要: 本申请公开了一种语音端点检测方法以及装置,该方法包括:获得目标语音数据;获得语音识别解码器针对目标语音数据进行语音识别后所生成的中间语音识别结果;基于语音后端点判别模型对目标语音数据进行解码,获得目标语音单元序列;根据中间语音识别结果,调整语音后端点检测参数,获得目标检测参数;根据目标检测参数,对目标语音单元序列的后端点进行判别,获得语音后端点判别结果。通过使用本方法,可基于语音识别过程中输出的中间语音识别结果实时调整语音后端点检测参数,实现语音后端点的动态检测,避免现有的语音端点检测过程因过于依赖语音识别结果而具有局限性。

    一种音频信号编解码方法及装置、通信系统、通信设备、存储介质

    公开(公告)号:CN117769740A

    公开(公告)日:2024-03-26

    申请号:CN202380012178.5

    申请日:2023-11-07

    发明人: 王宾

    IPC分类号: G10L19/008 G10L19/16

    摘要: 本公开涉及一种音频信号编解码方法及装置、通信系统、通信设备、存储介质,属于通信技术领域。该方法包括:音频信号发送端设备获取待编码混合格式音频信号;确定待编码混合格式音频信号的第一信息;对待编码混合格式音频信号进行预处理;基于第一信息,对预处理后的待编码混合格式音频信号进行音频格式转换获得传输声道音频信号和元数据信息;对传输声道音频信号进行编码获得第一编码参数,对元数据信息进行编码获得第二编码参数;将第一编码参数和第二编码参数写入码流中;向音频信号接收端设备发送码流;音频信号接收端设备接收码流并解码。通过编码端在有限制约束条件下的高效率编码以使解码端能够解码重建与原始输入信号更为接近的解码信号。

    一种多路多标准的音频解码系统

    公开(公告)号:CN117558283B

    公开(公告)日:2024-03-22

    申请号:CN202410045396.5

    申请日:2024-01-12

    IPC分类号: G10L19/008 G10L19/16

    摘要: 本发明涉及一种多路多标准的音频解码系统。本发明的架构包括处理器CPU、音频帧解码单元、任务队列模块。处理器CPU用于对任务队列模块进行配置音频帧的解码任务,通过寄存器配置的方法配置解码任务和与解码任务关联的输入控制信息。音频帧解码单元用于将一帧音频压缩码流数据解码成一帧脉冲编码调制数据,为单任务执行单元,支持现有的多个标准音频解码。任务队列模块用于管理和实现多路音频解码的运转,任务队列模块采用先进先出的结构。本发明通过任务队列模块增加了多路多标准音频解码的灵活性,解决了多路灵活变化的应用问题。本发明灵活且易扩展,且CPU的参与大大降低,最大可能地释放CPU。

    多模式空间音频编码的舒适噪声生成

    公开(公告)号:CN117727310A

    公开(公告)日:2024-03-19

    申请号:CN202311787793.1

    申请日:2021-07-06

    IPC分类号: G10L19/012 G10L19/008

    摘要: 提供了一种用于生成舒适噪声的方法。该方法包括:针对第一空间音频编码模式下的至少一个音频信号提供背景噪声参数的第一集合N1;以及针对第二空间音频编码模式下的至少一个音频信号提供背景噪声参数的第二集合N2。第一空间音频编码模式用于活动段;第二空间音频编码模式用于非活动段。该方法还包括:使背景噪声参数的第一集合N1适配于第二空间音频编码模式,从而提供适配的背景噪声参数的第一集合#imgabs0#该方法还包括:通过在转换周期内组合#imgabs1#和N2来生成舒适噪声参数。该方法还包括:基于舒适噪声参数来生成舒适噪声。

    用于3D音频内容和音频编解码器的扩展现实渲染

    公开(公告)号:CN117678015A

    公开(公告)日:2024-03-08

    申请号:CN202280047919.9

    申请日:2022-07-07

    IPC分类号: G10L19/008 H04S7/00

    摘要: 一种设备包括被配置为存储指令的存储器,并且还包括一个或多个处理器,该一个或多个处理器被配置为执行该指令以获得对应于声源的音频数据和指示该声源的方向的元数据。该一个或多个处理器被配置为执行该指令以获得指示与回放设备的用户相关联的观看方向的方向数据。该一个或多个处理器被配置为执行该指令以基于该观看方向与该声源的该方向之间的类似性来确定分辨率设定。该一个或多个处理器还被配置为执行该指令以基于该分辨率设定来处理该音频数据以生成所处理的音频数据。

    使用全通滤波器网络的仰角感知线索的无色生成

    公开(公告)号:CN117678014A

    公开(公告)日:2024-03-08

    申请号:CN202280047861.8

    申请日:2022-07-07

    摘要: 一种系统包括一个或多个计算设备,其将空间感知线索编码到单声道通道中以生成多个输出通道。计算设备确定多个输出通道的中间通道和侧通道的目标幅度响应,从而定义与一个或多个频率相关相移相关联的空间感知。计算设备基于目标幅度响应来确定单输入多输出全通滤波器的传递函数,并基于该传递函数来确定全通滤波器的系数,并且利用全通滤波器的系数来处理单声道通道以生成具有已编码空间感知线索的多个通道。全通滤波器被配置为相对于各个输出通道而言是无色的,从而允许将空间线索放置到音频流中以与音频的整体着色分离。

    基于广义互相关的音频数据处理方法、装置及存储介质

    公开(公告)号:CN117636907A

    公开(公告)日:2024-03-01

    申请号:CN202410103476.1

    申请日:2024-01-25

    摘要: 本发明提供一种基于广义互相关的音频数据处理方法、装置及存储介质,其中方法包括通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐。利用本发明,能够解决各路音频传输延迟不确定、音频延迟实时变化的问题,从而实现各路音频数据实时精确对齐。

    实时通信音频处理方法、装置、电子设备和存储介质

    公开(公告)号:CN113555024B

    公开(公告)日:2024-02-27

    申请号:CN202110869115.4

    申请日:2021-07-30

    IPC分类号: G10L19/008 H04L65/60

    摘要: 本公开关于一种实时通信音频处理方法、装置、电子设备和存储介质,实时通信音频处理方法包括:在实时通信的第一模式下,接收开启实时通信的第二模式的指令;响应于指令,从第一模式切换至第二模式,在第二模式下执行音频处理;发送处理后的音频数据;其中,在第二模式下执行音频处理,包括:根据比在第一模式下采集音频数据的采样率更高的采样率采集待处理音频数据;根据比在第一模式下对音频数据进行编码的采样率更高的采样率对待处理音频数据进行编码。通过对现有的实时通信做出包括提高采集音频数据的采样率和编码的采样率在内的调整,能够有效降低处理过程中的音质损失,提升处理后的音频数据的音质,满足特定场景下的高音质需求。

    音频处理单元以及用于对编码音频比特流进行解码的方法

    公开(公告)号:CN110459228B

    公开(公告)日:2024-02-06

    申请号:CN201910831663.0

    申请日:2013-07-31

    IPC分类号: G10L19/008 G10L19/16

    摘要: 本公开涉及音频处理单元以及用于对编码音频比特流进行解码的方法。一种用于包括通过将子流结构元数据(SSM)和/或节目信息元数据(PIM)以及音频数据包括在比特流中来生成编码音频比特流的设备和方法。其他方面是用于对这样的比特流进行解码的设备和方法,以及被配置成(例如,被编程成)执行该方法的任意实施方式或包括存储根据该方法的任意实施方式而生成的音频比特流的至少一个帧的缓冲存储器的音频处理单元(例如,编码器、解码器或后处理器)。