-
公开(公告)号:CN118762718A
公开(公告)日:2024-10-11
申请号:CN202410774660.9
申请日:2024-06-17
申请人: 青田小卡精灵人工智能科技有限公司
摘要: 本发明公开了一种能动态跟踪识别个人音色长期渐进性变化的方法与系统。该方法包括收集个体在不同时间点的语音样本,使用预处理算法进行去噪和归一化处理,利用频谱分析技术提取音色特征,应用机器学习算法进行模式识别和分类,利用统计方法和判定模型评估音色变化的显著性,并根据分析结果自动更新目标音色库中的特征数据。本发明能够实时监测和积累个人音色随时间的细微变化,解决了当前在健康监测、安全与身份验证、智能家居与物联网、个性化的语音助手等语音应用领域,因无法跟踪识别个人音色变化,导致一段时间后,当个人音色长期渐进性的变化超过的系统初始设定的阀值时,系统无法将音色与个人进行准确匹配的问题。
-
公开(公告)号:CN118471188A
公开(公告)日:2024-08-09
申请号:CN202410681389.4
申请日:2024-05-29
申请人: 宁德师范学院
IPC分类号: G10L13/02 , G10L19/02 , G10L19/022 , G10L25/18 , G10L25/21 , G10L25/24 , G10L25/45 , G10L25/90 , G10L25/51
摘要: 本发明适用于语音合成技术领域,提供了一种基于人工智能的个性化语音合成方法及终端。本发明通过确定多个语音输出对象,采集多个标准验证语音;计算多个语音短时能量,筛选多个相近验证语音;对多个相近验证语音进行频谱转化与对比,筛选多个音色相似语音;选择多个目标相似语音;基于人工智能技术,对多个目标输出对象进行不同的语音合成处理。能够采集多个语音输出对象的标准验证语音,计算多个语音短时能量,进行频谱转化与初始共振峰的比较,筛选多个音色相似语音,选择多个目标输出对象,进行不同的语音合成处理,从而能够在多人语音环境中有音色相似的情况下,快速、有效的自动进行识别判断与语音合成处理,方便辨别不同人的语音。
-
公开(公告)号:CN118335126A
公开(公告)日:2024-07-12
申请号:CN202410565875.X
申请日:2024-05-08
申请人: 江苏音律未来乐器科技有限公司
发明人: 曾歆
摘要: 本发明涉及古筝技术领域,且公开了一种基于深度学习的古筝音高识别算法,包括以下步骤:S1:读取音频文件;S2:音频信号分段,对音频信号进行分段;S3:预处理音频分段;a.目标分贝幅度调整:将获取到的音频段标准化以调整其音量至目标分贝级别;b.振幅归一化:为确保在合适的范围内,对音频段进行振幅归一化;S4:特征提取;a.音域适配调整。本发明本发明通过优化的CQT参数和自注意力机制,能够更准确地捕捉古筝的复杂音色和丰富的演奏技巧,提高音高识别的准确率,相较于传统的RNN,自注意力机制在处理音频序列中的长距离依赖关系方面表现更加出色,有助于分析复杂的音乐结构。
-
公开(公告)号:CN118312073A
公开(公告)日:2024-07-09
申请号:CN202410423708.1
申请日:2024-04-09
申请人: 南京灵境引擎科技有限公司
IPC分类号: G06F3/04815 , G06T13/40 , G06F16/332 , G06F40/30 , G06F3/14 , G10L15/22 , G10L13/02 , G10L13/10 , G10L25/63 , G10L25/90
摘要: 本发明公开了一种接入可视化大屏的3D虚拟人物交互系统,通过设置UE渲染模块与虚幻引擎对接,实现本地虚拟人物渲染,可以高精度的还原虚拟人物建模的质量,通过设置可视化展示模块分别与虚幻引擎和可视化大屏对接,将对虚幻引擎中的3D虚拟人物展现在可视化大屏中,通过语音对话模块实时采集用户说话产生的音频数据,通过渲染交互模块对音频数据进行识别,理解用户的意图,通过对话处理模块同时给出回答文本以及情绪、表情、肢体动作等附属反馈,渲染交互模块将回答文本合成包含情绪的答案语音包并同步生成相应的口型、表情和肢体动作控制指令,通过UE渲染模块同步控制虚拟人物说话时的口型、表情和肢体动作,实现了虚拟人物在大屏上的相关交互,使用户感受到更沉浸式的智能交互体验。
-
公开(公告)号:CN118298845A
公开(公告)日:2024-07-05
申请号:CN202410530115.5
申请日:2024-04-29
申请人: 北京开普云信息科技有限公司
IPC分类号: G10L25/24 , G10L25/30 , G10L25/90 , G10L19/008
摘要: 本申请公开了一种复调音频的音高识别模型的训练方法、装置、介质及设备,属于数据处理技术领域。将训练集中的复调音频的每帧音频数据转换成梅尔频谱图;搭建音高识别模型;利用模型中的Mamba‑UNet对每帧梅尔频谱图进行特征提取,得到第一中间特征;利用模型中的Transformer‑encoder对连续帧的第一中间特征进行分析,得到第二中间特征;利用全连接层对第二中间特征进行处理,得到人声的音高识别结果;根据训练集中的真实音高信息和音高识别结果对音高识别模型进行训练。本申请能在不牺牲全局感受野的情况下实现线性复杂度计算,降低计算成本;还能避免梯度问题,在处理大规模数据时显示出更高的效率和更好的性能。
-
公开(公告)号:CN114627892B
公开(公告)日:2024-06-18
申请号:CN202210271946.6
申请日:2022-03-18
申请人: 厦门大学
IPC分类号: G10L25/30 , G10L25/90 , G06N3/08 , G06N3/0464 , G06N3/0442 , G06N3/048
摘要: 一种基于深度学习的多声部音乐人声主旋律提取方法,涉及深度学习领域和音频信号处理领域。包括以下步骤:1)基于音高显著性的多声部音乐音频信号预处理:利用显著性函数中谐波求和,通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤获得输入神经网络的数据特征;2)基于多分类神经网络进行音高估算:将步骤1)预处理方法中得出的显著性图谱作为神经网络的输入,通过一个用于分类的神经网络来估算逐帧的音高。集合传统方法中对音频特征分析的优势,能较好地提取出音频的音高显著性特征,同时结合深度学习的先进方法,搭建神经网络训练模型,在预测结果时比传统的计算方法要更加快速高效。
-
公开(公告)号:CN113707130B
公开(公告)日:2024-06-14
申请号:CN202110945706.5
申请日:2021-08-16
申请人: 北京搜狗科技发展有限公司
摘要: 本发明实施例提供了一种语音识别方法、装置和用于语音识别的装置。所述方法包括:根据待处理的语音数据中各个说话人的声学特征,对所述语音数据进行切分处理,得到若干子句,每个子句包含一个说话人的语音片段;按照预设标签对所述子句进行归并处理,得到目标子句;对所述目标子句进行语音识别处理,得到所述语音数据的语音识别结果。本发明实施例可以保证每个子句的能量、说话人音调、音色的相对统一,有利于提升语音识别的准确度;并且,本发明实施例进一步还可以按照预设标签对子句进行归并处理,将存在关联关系的子句合并为目标子句,再对目标子句进行语音识别处理,可以进一步提升语音识别的准确度,提高语音识别性能。
-
公开(公告)号:CN112330579B
公开(公告)日:2024-06-14
申请号:CN202011188327.8
申请日:2020-10-30
申请人: 中国平安人寿保险股份有限公司
发明人: 欧光礼
摘要: 本申请属于图像检测技术领域,本申请提供了一种视频背景更换方法、装置、计算机设备及计算机可读存储介质。本申请通过获取包含主讲人的音视频,基于音视频,获取主讲人所对应的音视频特征,根据音视频特征,识别主讲人所对应的当前讲授状态,基于当前讲授状态,获取与当前讲授状态所对应的预设目标背景,采用预设目标背景通过预设背景替换方式替换初始背景,并将预设目标背景进行显示,由于采用预设目标背景替换初始背景,通过背景的替换,使讲授具备良好的效果和产出,提高讲授所使用的硬件资源与人力资源等讲授资源的利用效率,避免讲授资源的浪费。
-
公开(公告)号:CN114512144B
公开(公告)日:2024-05-17
申请号:CN202210106763.9
申请日:2022-01-28
申请人: 中国人民公安大学
摘要: 本发明涉及一种识别恶意语音信息的方法,包括采集被监控群组的实时会话数据,当被监控群组中存在会话人员的情绪曲线与被监控群组的情绪曲线的偏差大于预设偏差值时,将会话人员作为重点监控人员;得到重点监控人员的声纹特征信息和语料特征信息;根据预设安全规则,对重点监控人员的声纹特征信息和语料特征信息进行安全检查,确定重点监控人员的声纹特征信息和语料特征信息中是否包含恶意信息或恶意语气。本发明实现了对微信群中的语音信息进行恶意信息的识别,以及对利用微信群进行恐吓威胁等行为的识别,保护了微信群的安全。本发明还涉及一种识别恶意语音信息的装置、一种存储介质和设备。
-
公开(公告)号:CN113763991B
公开(公告)日:2024-04-19
申请号:CN202111041068.0
申请日:2019-09-02
申请人: 深圳市平均律科技有限公司
摘要: 本发明公开了演奏声音信息和曲谱信息的比对方法及系统,主要解决现有技术中存在的现有评价系统和方法机械化地要求实际演奏数据与标准演奏数据的匹配,忽视了实际演奏过程的不流畅性,缺少例如音区错误、抢拍、拖拍、节奏不稳等细致技术点的评价,从而造成演奏评价较低的问题。本发明通过先获取演奏声音信息和曲谱信息;然后将演奏声音信息和曲谱信息分别进行编码转换生成矩阵;然后将矩阵输入对应的比对函数中生成比对矩阵;然后根据比对矩阵进行路径规划,生产最优路径;然后根据最优比对路径的位置索引将最先生成的矩阵进行切分;最后根据评价词典进行评价并输出评价语。通过上述方案,本发明达到了能进行细节点评的目的。
-
-
-
-
-
-
-
-
-