-
公开(公告)号:CN118609605A
公开(公告)日:2024-09-06
申请号:CN202411080693.X
申请日:2024-08-08
申请人: 宁波星巡智能科技有限公司
摘要: 本发明涉及音频处理技术领域,解决了现有技术中收集到的婴幼儿哭声受限于杂音的干扰,难以准确区分和提取出有效婴幼儿哭声的问题,提供了一种基于机器学习的婴幼儿哭声增强方法、装置及设备。该方法包括:获取第一音频数据,其中,所述第一音频数据包括至少一段含有婴幼儿哭声的音频数据;对所述第一音频数据进行预处理,得到第一音频数据对应的频谱图;将所述频谱图输入自编码器模型,输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息;根据所述音频特征信息,对含有婴幼儿哭声的音频数据进行处理,得到增强后的第二音频数据。本发明有效地从嘈杂环境中提取并增强了婴幼儿哭声,显著提高了哭声信号的纯净度和识别率。
-
公开(公告)号:CN118609599A
公开(公告)日:2024-09-06
申请号:CN202410826484.9
申请日:2024-06-25
申请人: 新励成教育科技股份有限公司
摘要: 本申请提出了一种口才训练的反馈方法、系统、装置及存储介质,该方法包括:获取训练者在当前口才训练时的多模态数据;对多模态数据进行语音与非语言行为分析,得到训练者的语音强度变化数据、语调模式数据以及非语言行为与语音的同步性数据;对语音强度变化数据、语调模式数据以及非语言行为与语音的同步性数据进行口才质量分析,得到训练者在当前口才训练过程中的多维口才质量指标;基于多维口才质量指标,为训练者生成并输出针对性的口才改进建议。本申请能够及时且有效地针对训练者的口才训练表现进行个性化反馈,实现了针对训练者的具体表现进行训练指导,从而可以有效提升训练者的口才训练效率和口才技能。
-
公开(公告)号:CN118609553A
公开(公告)日:2024-09-06
申请号:CN202410672449.6
申请日:2024-05-28
申请人: 合肥马道信息科技有限公司
IPC分类号: G10L15/18 , G10L15/16 , G10L25/63 , G10L15/22 , G10L15/26 , G10L13/08 , G06N5/04 , G06N3/0455 , G06F40/35
摘要: 本发明公开了一种基于大模型的语音生成技术的英文对话学习系统,涉及大模型语音生成技术领域,解决了现有技术在情感表达方面仍然有限,现有的英语语音识别模型无法完全模拟人类的情感,导致在部分场景中,模型生成的英语语音所表达的意思,与实际人们所要表达的意思不一致的技术问题;本发明通过获取用户输入的英语语音,并对英语语音进行预处理,得到初始语音;通过对初始语音进行意图分析和情感分析,解决了现有技术在情感表达方面仍然有限的技术问题;通过将回复文本转化为可视化数据;以及通过文本转语音TTS技术将回复文本转化为英语语音,解决了现有技术对英语对话学习太过单一,不利于学习者英语成长进步的问题。
-
公开(公告)号:CN118609550A
公开(公告)日:2024-09-06
申请号:CN202410833226.3
申请日:2024-06-26
申请人: 天津中德应用技术大学
IPC分类号: G10L15/16 , G10L15/18 , G10L15/07 , G10L13/08 , G10L13/027 , G10L25/63 , G06F18/213 , G06F18/241 , G06F18/25 , G06F123/02
摘要: 本发明公开了一种人工智能算法优化的语音识别系统。本发明通过数据采集模块采集和预处理用户的多模态数据,处理模块处理多模态数据并进行时序关系建模,识别结果生成模块接收并识别处理后的数据生成初步语音识别结果,情感分析模块对初步结果进行情感分析和优先级排序,反馈生成模块通过语音合成技术生成反馈确认信息并播放给用户,用户反馈用于调整系统,数据输出模块将最终的语音发送到移动终端,服务器保护和储存数据供后续调用。此流程通过多模态数据融合和情感分析,优化语音识别的准确性和用户体验,并通过反馈机制和安全存储,确保系统的持续优化和数据安全。
-
公开(公告)号:CN118588060A
公开(公告)日:2024-09-03
申请号:CN202410815543.2
申请日:2024-06-24
申请人: 厦门狄耐克智能科技股份有限公司 , 福建师范大学
IPC分类号: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/22 , G10L15/30 , G10L25/63 , G10L25/18 , H04L12/28 , G06N3/094
摘要: 本发明涉及智能家居技术领域,具体为基于对抗性学习的智能家居语音助手情绪隐私保护装置,该装置包括以下模块:语音数据接收模块、语音特征转化模块、脱敏梅尔频谱特征生成模块和语音生成模块,利用生成对抗网络,大幅度提高装置对于语音中的情绪特征的解析与转换;在损失函数设计时采用了多任务损失函数,对于失真损失、对抗性损失和身份损失等损失函数采取了不同的权重,动态地调整神经网络模型的参数,使得除了对于情绪属性的脱敏之外,还能有效保留语音其他属性的效用性。综上所述,使用本发明可以使得语音情绪转换更准确,更自然,并且能够保持原始其他属性的效用保留。本发明可广泛应用在智能家居等语音情绪隐私保护领域。
-
公开(公告)号:CN118587757A
公开(公告)日:2024-09-03
申请号:CN202410900132.3
申请日:2024-07-05
申请人: 谷东科技有限公司
发明人: 崔海涛
IPC分类号: G06V40/16 , G06F3/01 , G06V10/764 , G06V10/82 , G06N3/0464 , G10L25/63 , G10L25/57 , G10L25/30
摘要: 本申请提供一种基于AR的情感数据处理方法、装置及电子设备,涉及数据处理领域。在该方法中,获取AR眼镜发送的针对用户的情感数据,用户佩戴有AR眼镜,情感数据包括面部表情数据和用户语音数据;对面部表情数据进行情感识别,得到第一识别结果;对用户语音数据进行语音识别,得到第二识别结果;若确定第一识别结果和第二识别结果均指示用户的情绪状态为消极情绪,则获取当前时刻数据;根据当前时刻数据,生成对应的处理策略,并控制AR眼镜执行处理策略,以缓解用户的消极情绪。实施本申请提供的技术方案,便于提高对情绪的识别准确度。
-
公开(公告)号:CN118426593B
公开(公告)日:2024-08-30
申请号:CN202410887992.8
申请日:2024-07-04
申请人: 深圳市联合信息技术有限公司 , 广州市联大信息科技有限公司
IPC分类号: G06F3/01 , G06F3/16 , G06F40/279 , G06F40/35 , G06V40/16 , G10L15/18 , G10L15/22 , G10L15/26 , G10L17/22 , G10L25/63
摘要: 本发明涉及大数据服务技术领域,且公开了一种基于虚拟数字人交互方法及系统,包括文本识别模块、语音识别模块、决策模块、执行模块、人机交互模块、情感分析模块、多模态感知单元、视觉识别模块和视觉辅助模块;所述文本识别模块,用于用户通过文本输入与虚拟数字人进行交流,分析和理解用户的文本输入内容及文本情感;所述语音识别模块,用于用户通过语音输入与虚拟数字人进行交流,系统使用语音识别技术、声纹识别技术将用户的语音转换为计算机可读文本。本发明通过采集用户的面部表情特征,并将提取的面部表情特征反馈至决策层,这样决策层可以就用户语音、文本所识别的情绪内容进行补足,以此来提高人机交互模块情感输出时的真实性。
-
公开(公告)号:CN114449297B
公开(公告)日:2024-08-30
申请号:CN202011219009.3
申请日:2020-11-04
申请人: 阿里巴巴集团控股有限公司
发明人: 褚晓璐
IPC分类号: H04N21/2187 , H04N7/15 , H04N21/234 , H04N21/233 , H04N21/431 , G10L25/57 , G10L25/63 , H04N21/475
摘要: 本申请实施例提供一种多媒体信息的处理方法、计算设备及存储介质。在本申请实施例中,获取多媒体信息,确定表示多媒体信息中用户情绪的情绪信息;根据情绪信息,确定多媒体信息的对应处理方式,从而可以对多媒体信息进行处理,处理方式用于反映情绪信息。其中,可以通过确定多媒体信息中用户的情绪信息,来确定出对应的处理方式,从而自动地对多媒体信息进行处理,解放了人力以及提高处理效率。
-
公开(公告)号:CN118541750A
公开(公告)日:2024-08-23
申请号:CN202380015068.4
申请日:2023-01-11
申请人: 三星电子株式会社
发明人: 苏米特·库玛尔 , 巴拉特·拉杰·坎达尔·拉哈 , 维波哈·阿加瓦尔 , 索拉夫·高希 , 亚诗瓦特·辛格·塞尼 , 希曼苏·阿罗拉 , 哈瑞克韩达那·波哈加拉居·斯瓦拉亚·斯艾
IPC分类号: G10L13/02 , G10L13/08 , G10L25/63 , G10L15/26 , G10L15/183 , G10L25/30 , G06N3/0464 , G06T13/80
摘要: 提供了一种用于由电子装置智能朗读显示内容的方法。所述方法包括基于在所述电子装置的屏幕上显示的多个内容来获得屏幕表征。所述方法包括基于所述屏幕表征从所述多个内容中提取多个见解,所述多个见解包括所述多个内容的意图、重要性、情感、声音表征和信息序列中的至少一个。所述方法包括生成模拟所提取的多个见解的音频。
-
公开(公告)号:CN118538210A
公开(公告)日:2024-08-23
申请号:CN202310189208.1
申请日:2023-02-22
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
摘要: 本申请提供了一种观点识别方法、装置、设备及计算机可读性存储介质;其中,所述方法包括:获取当前文本数据;当前文本数据为应用场景中与业务相关的当前音频数据对应的文本数据;利用第一编码模型,对当前文本数据进行编码,得到第一编码向量;利用至少一个信息识别模型,对第一编码向量进行信息识别,得到至少一个信息识别向量;信息识别向量表征与当前文本数据的观点相关的信息;利用观点识别模型,基于第一编码向量和至少一个信息识别向量,得到观点识别向量,从而确定当前文本数据对应的观点信息。本申请实施例能够实现多个识别任务之间的相关性,从而提高了对文本数据进行观点识别的准确度。
-
-
-
-
-
-
-
-
-