-
公开(公告)号:CN117711409A
公开(公告)日:2024-03-15
申请号:CN202311721463.2
申请日:2023-12-14
申请人: 北方工业大学
IPC分类号: G10L17/22 , G10L17/04 , G10L17/18 , G10L13/027 , G10L13/08 , G10L15/06 , G10L15/16 , G10L15/26 , G10L25/63 , G06N3/0442 , G06N3/0464 , G06N3/0499 , G06N3/08
摘要: 本发明提供了一种基于深度学习的多功能语音交互装置,属于语音交互领域,装置包括:人机交互模块,用于为用户提供人机交互界面,接收用户输入的语音及指令,并显示语音文本及情绪类别,播放多风格语音;语音识别模块,用于基于深度学习模型,对用户输入的语音进行文字识别及情绪识别,得到语音文本及情绪类别;语音合成模块,用于基于语音合成模型,根据用户输入的语音生成多风格语音。本发明提高了语音交互的灵活性,并将情绪识别加入语音识别中,可以根据语音同时识别出文字和情绪,使得语音交互更加贴近实际交流场景。