一种基于人工智能的英语语音信号处理的识别方法

    公开(公告)号:CN118411982B

    公开(公告)日:2024-10-29

    申请号:CN202410491797.3

    申请日:2024-04-23

    发明人: 张彧凤 赵擎华

    摘要: 本发明属于英语语音信号识别技术领域,涉及到一种基于人工智能的英语语音信号处理的识别方法。本发明通过提取目标英语语音信号数据对应各英语语音帧的梅尔频率倒谱系数、短时能量和过零率等特征参数,有利于更深入地了解目标英语语音信号的特性和结构,为后续的英语语音的识别和合成提供了有力的支持,通过分析目标英语语音数据的偏差系数,并判断其的修正需求,避免了由于不同语言之间的语音特征和发音习惯存在差异而导致的在进行英语语音翻译时的不准确性和鲁棒性,提高了翻译的准确性和自然度,通过对存在较大偏差的目标英语语音信号数据进行修正,有助于提高目标英语语音信号数据翻译的质量和准确性。

    一种基于深度学习的模拟和数字调制话音信号恢复方法

    公开(公告)号:CN118737168A

    公开(公告)日:2024-10-01

    申请号:CN202410616587.2

    申请日:2024-05-17

    摘要: 本发明公开了一种基于深度学习的模拟和数字调制语音信号恢复方法。本发明首先构建原始的模拟调制信号数据集和数字调制信号数据集;然后对扩充得到数字调制信号和模拟调制信号数据集;并直接提取数字调制信号和模拟调制信号数据集中每个样本的实部和虚部;其次构建模拟和数字调制统一话音恢复的神经网络模型,对模型提取的深度特征进行重建,恢复原始的实话音信号;训练模型得到每种调制类型单独优化的话音恢复模型。本发明利用深度神经网络代替传统的信号接收过程,在输出端还原出原始的话音信号而非比特流,克服由低量化位数引起的量化噪声的影响。且发送端的信号编码方式更加简单,在传输数据量减少,SigRNet的计算复杂度也相对较低。

    无线耳机及提升无线耳机续航力的方法

    公开(公告)号:CN114286218B

    公开(公告)日:2024-10-01

    申请号:CN202011043921.8

    申请日:2020-09-28

    发明人: 吴俊德

    摘要: 一种无线耳机,其特征在于,所述无线耳机包括第一耳机及第二耳机。所述第一耳机具有第一剩余电量,用以自电子装置接收第一音频信号,并播放调整后的第一音频信号。所述第二耳机具有第二剩余电量,用以自所述电子装置接收第二音频信号,并播放所述第二音频信号,其中所述第一剩余电量小于所述第二剩余电量。所述第一耳机的第一处理芯片用以于所述第一剩余电量小于第一电量阈值时,计算所述第一音频信号与所述第二音频信号的差分值,并根据所述差分值调整一部份的所述第一音频信号的音量及另一部份的所述第一音频信号的音质以产生所述调整后的第一音频信号。本发明还提供一种提升无线耳机续航力的方法。

    一种可输出多种音色的便携式音频播放系统

    公开(公告)号:CN118506821B

    公开(公告)日:2024-09-27

    申请号:CN202410964788.1

    申请日:2024-07-18

    发明人: 叶茂盛

    摘要: 本发明提供一种可输出多种音色的便携式音频播放系统,其包括数字音频处理器、DAC电路、音频信号处理电路、三音色选择电路以及音频输出电路,三音色选择电路包括差分/单端处理电路、电子管双音色电路、晶体管音色电路以及电子管/晶体管音色选择电路,数字音频处理器用于接收输入的音频信号,DAC电路将数字音频处理器输出的数字音频信号转换为模拟音频信号,DAC电路与音频信号处理电路连接,音频信号处理电路与三音色选择电路连接,三音色选择电路根据音色选择信号从电子管双音色电路、晶体管音色电路中选择并输出相应的音色。本发明能够输出多种独特的音色,在音色多样性、音质、灵活性、便携性、专业性和扩展性等方面均具有显著优势。

    音频生成的方法、装置、设备及存储介质

    公开(公告)号:CN112133319B

    公开(公告)日:2024-09-06

    申请号:CN202010901040.9

    申请日:2020-08-31

    发明人: 张斌

    摘要: 本申请公开了一种音频生成的方法、装置、设备及存储介质,属于计算机技术领域。所述方法包括:基于预设时长对目标音频进行切分,得到多个音频段;基于频域扩展模型的第一频域扩展模块,分别对每个音频段的幅度矩阵进行处理,得到每个音频段对应的第一中间结果矩阵;基于频域扩展模型的第二频域扩展模块,分别对每个音频段的幅度矩阵的转置矩阵进行处理,得到每个音频段对应的第二中间结果矩阵;对于每个音频段,基于所述音频段的第一中间结果矩阵与第二中间结果矩阵,确定包含高频数据的音频段;对每个包含高频数据的音频段进行组合,得到包含高频数据的目标音频。通过本申请可以增强用户听歌体验。

    车载多人唱歌控制方法及装置、存储介质及电子设备

    公开(公告)号:CN118553218A

    公开(公告)日:2024-08-27

    申请号:CN202310198218.1

    申请日:2023-02-27

    发明人: 于婧 王海新

    摘要: 本申请公开了一种车载多人唱歌控制方法及装置、存储介质及电子设备,包括获取车内的多人音频,对所述多人音频进行音频分离,生成至少两路单人语音;对每路所述单人语音进行旋律识别,判断所述单人语音是否携带有旋律,并将携带有旋律的所述单人语音作为单人哼唱语音;若单人哼唱语音的数量为一,则进入单人唱歌模式;若单人哼唱语音的数量大于等于二,则进入多人唱歌模式。本申请将多人音频分离成多路单人语音,并对每路单人语音进行旋律识别,将带有旋律的单人语音作为单人哼唱语音,根据单人哼唱语音的数量确定单人唱歌模式或多人唱歌模式,能够识别出多人音频中的哼唱语音并选择不同的唱歌模式,能够有效提高乘员的唱歌体验。

    音乐风格迁移的方法、计算机装置和计算机可读存储介质

    公开(公告)号:CN118471241A

    公开(公告)日:2024-08-09

    申请号:CN202410940696.X

    申请日:2024-07-15

    摘要: 本发明提供一种音乐风格迁移的方法、计算机装置和计算机可读存储介质,该方法包括获取灯光主题,根据灯光主题从音乐数据库中选择模板音乐;对待迁移音乐进行分离,得到多个待迁移音轨,多个待迁移音轨包括多个待迁移乐器音轨和待迁移人声音轨;对待迁移人声音轨使用模板音乐的模板人声音轨进行变换,得到迁移人声音轨;对各待迁移乐器音轨提取各待迁移特征;将各待迁移乐器音轨与模板音乐的模板音轨进行相似度匹配;将各待迁移乐器音轨与其对应的模板音轨输入变分自编码模型,得到各迁移音轨;将各迁移音轨和迁移人声音轨进行合并,得到迁移音乐。通过对待迁移音乐分为多个待迁移音轨,使得音乐风格迁移后的迁移音乐更符合灯光的主题风格。

    油烟机的音频注入方法、装置、电子设备和存储介质

    公开(公告)号:CN118298843A

    公开(公告)日:2024-07-05

    申请号:CN202410428220.8

    申请日:2024-04-10

    IPC分类号: G10L21/04 G10L21/003

    摘要: 本发明提供了一种油烟机的音频注入方法、装置、电子设备和存储介质,油烟机与预先设置有多种类型的音频,音频与比例分配系数相对应;方法包括:确定油烟机的使用场景,基于油烟机的使用场景确定映射问题;获取用户输入的映射问题的答案;映射问题用于在油烟机的不同使用场景下询问用户对于多种类型的音频的喜好程度;基于映射问题的答案与比例分配系数的映射关系确定多种音频的比例分配系数;基于多种音频的比例分配系数确定多种音频的播放时间;控制油烟机基于多种音频的播放时间播放多种音频。该方式中,可以基于用户输入的映射问题的答案确定多种音频的比例分配系数,从而增强音频注入效果,降低油烟机噪音带来的烦恼度,提升用户的体验感。

    一种适用于目标建筑空间的抗混响语音信号的获取方法

    公开(公告)号:CN118298835A

    公开(公告)日:2024-07-05

    申请号:CN202410293962.4

    申请日:2024-03-14

    申请人: 天津大学

    摘要: 本发明提出了一种适用于目标建筑空间的抗混响语音信号的获取方法,首先采集目标建筑空间的脉冲响应信号,然后应用人机实时交互模拟系统令两名实验人员进行对话任务,在对话任务过程中两名实验人员进行交流并不断获得反馈,根据反馈不断修正自己的发声,最后使实验人员的发声趋于稳定并且双方均能够听清楚,从而得到实验人员能够听清楚的稳定发声状态下的语音数据;通过分析和学习得到的实验人员能够听清楚的稳定发声状态下的语音数据的发声特点,得出适用于目标建筑空间的抗混响语音信号;将生成的抗混响语音信号,输入至目标建筑空间的广播系统进行播放,即可实现良好的语音传达效果。

    一种智能体声音输出处理方法、装置及设备

    公开(公告)号:CN118230713A

    公开(公告)日:2024-06-21

    申请号:CN202410266737.1

    申请日:2024-03-08

    摘要: 本申请公开了一种智能体声音输出处理方法、装置及设备,通过获取智能体的目标行为策略信息、当前场景种类信息以及本体状态信息,分别确定声音播放指标以及至少一个目标原始音源,保证声音效果的确定性,并根据声音播放指标对目标原始音源进行拼接结构化处理,增强了声音表达的随机性和丰富性,解决了当前智能设备声音输出的技术实现中,采用预设应答会让声音的表达具有强烈的固定性,缺乏变化,采用合成方式输出声音内容,合成效果是否与预期相符具有较大的不确定性,容易影响用户体验的技术问题。