发明公开
- 专利标题: 一种基于深度学习的多功能语音交互装置
-
申请号: CN202311721463.2申请日: 2023-12-14
-
公开(公告)号: CN117711409A公开(公告)日: 2024-03-15
- 发明人: 庞中华 , 商鹏飞 , 高胜男 , 翟维枫 , 于铧仁 , 郭海彬
- 申请人: 北方工业大学
- 申请人地址: 北京市石景山区晋元庄路5号
- 专利权人: 北方工业大学
- 当前专利权人: 北方工业大学
- 当前专利权人地址: 北京市石景山区晋元庄路5号
- 代理机构: 北京高沃律师事务所
- 代理商 贾瑞华
- 主分类号: G10L17/22
- IPC分类号: G10L17/22 ; G10L17/04 ; G10L17/18 ; G10L13/027 ; G10L13/08 ; G10L15/06 ; G10L15/16 ; G10L15/26 ; G10L25/63 ; G06N3/0442 ; G06N3/0464 ; G06N3/0499 ; G06N3/08
摘要:
本发明提供了一种基于深度学习的多功能语音交互装置,属于语音交互领域,装置包括:人机交互模块,用于为用户提供人机交互界面,接收用户输入的语音及指令,并显示语音文本及情绪类别,播放多风格语音;语音识别模块,用于基于深度学习模型,对用户输入的语音进行文字识别及情绪识别,得到语音文本及情绪类别;语音合成模块,用于基于语音合成模型,根据用户输入的语音生成多风格语音。本发明提高了语音交互的灵活性,并将情绪识别加入语音识别中,可以根据语音同时识别出文字和情绪,使得语音交互更加贴近实际交流场景。