-
公开(公告)号:CN118802063A
公开(公告)日:2024-10-18
申请号:CN202310390123.X
申请日:2023-04-12
申请人: 北京小米移动软件有限公司
摘要: 本公开是关于一种音频播放方法、装置及存储介质。方法包括:获取第一应用中的第一音频参数值;基于第二应用确定的无线链路参数值和所述第一音频参数值,确定第二音频参数值;基于所述第二音频参数值确定目标音频文件;通过所述第一应用播放所述目标音频文件。以使得能够自适应调节音频参数值,无需用户主动设置,尽可能地实现较高的音频质量。
-
公开(公告)号:CN112614497B
公开(公告)日:2024-10-01
申请号:CN202110019042.X
申请日:2016-03-07
申请人: 弗劳恩霍夫应用研究促进协会
IPC分类号: G10L19/008 , G10L19/02 , G10L19/04 , G10L19/18 , G10L21/038
摘要: 展示用于编码多声道音频信号(4)的音频编码器(2)的示意性框图。音频编码器包括线性预测域编码器(6)、频域编码器(8)以及用于在线性预测域编码器(6)与频域编码器(8)之间切换的控制器(10)。控制器被配置为使得多声道信号的部分由线性预测域编码器的编码帧表示或由频域编码器的编码帧表示。线性预测域编码器包括用于对多声道信号(4)进行降混以获得降混信号(14)的降混频器(12)。线性预测域编码器还包括用于编码降混信号的线性预测域核心编码器(16),此外,线性预测域编码器包括用于从多声道信号(4)生成第一多声道信息(20)的第一联合多声道编码器(18)。
-
公开(公告)号:CN118522296A
公开(公告)日:2024-08-20
申请号:CN202310152315.7
申请日:2023-02-17
申请人: 华为技术有限公司
IPC分类号: G10L19/00 , G10L19/008 , G10L19/032 , G10L19/18
摘要: 本申请公开了一种有损编解码器和无损编解码器之间的切换方法和装置,该方法包括:获取上一帧Ti‑1的波形,并将上一帧Ti‑1的波形更新到无损编解码器上输入帧缓存;上一帧Ti‑1的波形由有损编码器进行编码;对无损编码器缓存中的波形进行整数时域加窗混叠消除INT winTDAC,得到第一变换结果,并将第一变换结果更新到无损编解码器上交叠缓存中;获取当前帧Ti的波形,并将当前帧Ti的波形更新到输入帧缓存;对无损编码器缓存中的波形进行整数改进离散余弦变换INTMDCT,得到第二变换结果。通过本申请,可以实现有损编解码器和无损编解码器之间实现实时无感切换,开销小,且不会引入感知噪声。
-
公开(公告)号:CN118430578A
公开(公告)日:2024-08-02
申请号:CN202310074493.2
申请日:2023-01-31
申请人: 广州视源电子科技股份有限公司 , 广州视源人工智能创新研究院有限公司
发明人: 雷延强
摘要: 本发明实施例公开了一种语音内容表示提取方法、装置、终端设备以及存储介质。本发明实施例预先使用韵律结构被破坏的语音信号对自编码器进行训练,以使自编码器能够从输入的语音信号中提取出语音内容表示,而忽略语音信号中的韵律结构。后续在提取原始语音信号时,首先从原始语音信号提取出第一梅尔频谱,并将第一梅尔频谱输入到设置好的自编码器,利用自编码器将与说话人相关的语音表示转换为说话人无关的语音内容表示,从而得到包括有原始语音信号的语音内容表示的目标语音内容向量。本发明实施例的自编码器在接收到语音信号后,能够忽略语音信号中的韵律信息,提取出与说话人无关的语音内容表示,提高了语音说话内容的提取效果。
-
公开(公告)号:CN112185400B
公开(公告)日:2024-07-30
申请号:CN202011087998.5
申请日:2013-05-02
IPC分类号: G10L19/008 , G10L19/18
摘要: 本公开涉及用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统。以比特流(P)为基础,通过从比特流导出m通道核心信号(Y)和多通道编码参数(α)重构n通道音频信号(X),此处1≤m<n。从比特流还导出量化核心信号的编码器侧动态范围限制的预处理动态范围控制参数,即预处理DRC参数(DRC2)。在基于预处理DRC参数消除任何编码器侧动态范围限制的同时通过根据多通道编码参数的参数合成获得n通道音频信号。在特定的实施例中,重构进一步包括量化可能的解码器侧动态范围压缩的经补偿的后处理DRC参数的使用。优选地,由不同解码器侧组件执行编码器侧范围限制消除和范围压缩。消除和压缩可以由DRC预处理器协调。
-
公开(公告)号:CN118314858A
公开(公告)日:2024-07-09
申请号:CN202410571321.0
申请日:2024-05-10
申请人: 杭州惠耳听力技术设备有限公司
摘要: 本发明公开了一种用于听障儿童的多模态音乐转化方法及系统,方法包括:接收目标音乐的音频信号;利用快速傅里叶变换分析所述音频信号,得到不同频率的能量强度值;根据所述能量强度值,确定音乐的节奏特征信息,并将所述能量强度值转换为体现音乐节奏的可视化效果画面;根据所述节奏特征信息控制步进电机,以使所述步进电机的振动与音乐节奏实现同步。利用本发明实施例,能够将音乐的节奏旋律准确地转化为视觉图像和触感振动,实现音乐信息的全面且同步的多模态表达,并在技术上保证音乐信息转换的同步性和准确性。
-
公开(公告)号:CN118155661A
公开(公告)日:2024-06-07
申请号:CN202410265676.7
申请日:2024-03-08
申请人: 浙江大学宁波“五位一体”校区教育发展中心
IPC分类号: G10L25/51 , G10L15/08 , G10L15/26 , G10L19/18 , H04L9/40 , H04L9/32 , G06F18/25 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/09 , G06Q50/50
摘要: 一种基于多模态融合深度神经网络模型电信反欺诈方法和系统,其方法包括:步骤1.将信息中的语音模态转换为文字模态;步骤2.将信息中的图像进行切片并转换为图像数字向量;步骤3.将信息中的文本转换为数字向量;步骤4.文本图像信息融合向量生成;步骤5.多层联合向量的深度学习网络迭代训练;步骤6.欺诈识别预测;待预测是否为欺诈的样本输入到已经训练好的分类器模型中,利用最后一层迭代后的输出向量,经过双曲正切函数进行映射,完成欺诈预测时的是否违规的判断。
-
公开(公告)号:CN118038880A
公开(公告)日:2024-05-14
申请号:CN202311804028.6
申请日:2023-12-25
申请人: 深圳市沃特沃德软件技术有限公司
IPC分类号: G10L19/002 , G10L19/18 , G10L19/24
摘要: 本申请属于音频技术领域,公开了一种处理音频数据的方法、装置、设备和存储介质,其中,所述方法包括:使用第一音频编码器将原始格式的音频数据编码为第一格式,得到第一格式的音频数据;将第一格式的音频数据存储到存储器中;当需要传输或播放音频时,从存储器中检索对应的第一格式的音频数据,作为目标音频数据;使用第一音频解码器将目标音频数据解码回原始格式,得到解码后的音频数据;使用第二音频编码器将解码后的音频数据编码为第二格式,得到第二格式的音频数据;其中,所述第一音频编码器比所述第二音频编码器的比特率要低;传输或播放第二格式的音频数据。本申请能够在有限的存储空间中有效地存储音频数据,同时提供高质量的音频输出。
-
公开(公告)号:CN112786061B
公开(公告)日:2024-05-07
申请号:CN202110100367.0
申请日:2016-03-08
申请人: 弗劳恩霍夫应用研究促进协会
IPC分类号: G10L19/008 , G10L19/18 , G10L19/02
摘要: 示出了用于对编码音频信号4进行解码的解码器2的示意框图。解码器包括自适应频谱时间转换器6和重叠相加处理器8。自适应频谱时间转换器例如通过频率时间变换将连续的频谱值块4’转换成连续的时间值块10。此外,自适应频谱时间转换器6接收控制信息12,并且响应于控制信息12,在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,其中第一组变换核包括在核的侧面具有不同对称性的一个或多个变换核,第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核。此外,重叠相加处理器8将连续的时间值块10重叠相加,以获得可以作为解码音频信号的经解码的音频值14。
-
公开(公告)号:CN112074902B
公开(公告)日:2024-04-12
申请号:CN201980024782.3
申请日:2019-01-31
申请人: 弗劳恩霍夫应用研究促进协会
IPC分类号: G10L19/008 , G10L19/18 , G10L19/02
摘要: 一种用于编码音频场景的音频场景编码器,音频场景包括至少两个分量信号,音频场景编码器包括:用于对至少两个分量信号进行核心编码的核心编码器(160),其中核心编码器(160)被配置用以针对至少两个分量信号的第一部分产生第一编码表示(310),并且用以针对至少两个分量信号的第二部分产生第二编码表示(320),用于分析音频场景以得出针对第二部分的一个或多个空间参数(330)或一个或多个空间参数集的空间分析器(200);以及用于形成经编码音频场景信号(340)的输出接口(300),经编码音频场景信号(340)包括第一编码表示(310)、针对第二部分的第二编码表示(320)及一个或多个空间参数(330)或一个或多个空间参数集。
-
-
-
-
-
-
-
-
-