-
公开(公告)号:CN117711409A
公开(公告)日:2024-03-15
申请号:CN202311721463.2
申请日:2023-12-14
申请人: 北方工业大学
IPC分类号: G10L17/22 , G10L17/04 , G10L17/18 , G10L13/027 , G10L13/08 , G10L15/06 , G10L15/16 , G10L15/26 , G10L25/63 , G06N3/0442 , G06N3/0464 , G06N3/0499 , G06N3/08
摘要: 本发明提供了一种基于深度学习的多功能语音交互装置,属于语音交互领域,装置包括:人机交互模块,用于为用户提供人机交互界面,接收用户输入的语音及指令,并显示语音文本及情绪类别,播放多风格语音;语音识别模块,用于基于深度学习模型,对用户输入的语音进行文字识别及情绪识别,得到语音文本及情绪类别;语音合成模块,用于基于语音合成模型,根据用户输入的语音生成多风格语音。本发明提高了语音交互的灵活性,并将情绪识别加入语音识别中,可以根据语音同时识别出文字和情绪,使得语音交互更加贴近实际交流场景。
-
公开(公告)号:CN118230207A
公开(公告)日:2024-06-21
申请号:CN202410123007.6
申请日:2024-01-30
申请人: 北方工业大学
摘要: 本发明提供了一种基于视频识别的多功能智能娱乐交互装置,涉及娱乐交互领域,包括:视频处理模块以及智能音乐播放模块;所述视频处理模块,用于采集视频图像,并基于手势识别模型识别所述视频图像中的手势,根据所述手势进行虚拟绘图,以及检测目标,并根据目标播放所述目标对应场景的音乐;所述智能音乐播放模块,用于在自动模式下,以检测到目标作为触发依据,根据季节、时间、天气以及所述目标对应的场景播放音乐,以及在手动模式下,基于交互界面,根据选取的音乐风格播放音乐。本发明能够根据景区、公园等市民休闲娱乐空间场景变化音乐风格。
-