一种基于深度学习的多功能语音交互装置

发明公开

CN117711409A 一种基于深度学习的多功能语音交互装置审中-实审

请登陆查看更多内容

专利标题： 一种基于深度学习的多功能语音交互装置
申请号： CN202311721463.2

申请日： 2023-12-14
公开(公告)号： CN117711409A

公开(公告)日： 2024-03-15
发明人: 庞中华 , 商鹏飞 , 高胜男 , 翟维枫 , 于铧仁 , 郭海彬
申请人： 北方工业大学
申请人地址： 北京市石景山区晋元庄路5号
专利权人： 北方工业大学
当前专利权人： 北方工业大学
当前专利权人地址： 北京市石景山区晋元庄路5号
代理机构： 北京高沃律师事务所
代理商 贾瑞华
主分类号： G10L17/22
IPC分类号： G10L17/22 ; G10L17/04 ; G10L17/18 ; G10L13/027 ; G10L13/08 ; G10L15/06 ; G10L15/16 ; G10L15/26 ; G10L25/63 ; G06N3/0442 ; G06N3/0464 ; G06N3/0499 ; G06N3/08

摘要：

本发明提供了一种基于深度学习的多功能语音交互装置，属于语音交互领域，装置包括：人机交互模块，用于为用户提供人机交互界面，接收用户输入的语音及指令，并显示语音文本及情绪类别，播放多风格语音；语音识别模块，用于基于深度学习模型，对用户输入的语音进行文字识别及情绪识别，得到语音文本及情绪类别；语音合成模块，用于基于语音合成模型，根据用户输入的语音生成多风格语音。本发明提高了语音交互的灵活性，并将情绪识别加入语音识别中，可以根据语音同时识别出文字和情绪，使得语音交互更加贴近实际交流场景。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L17/00	讲话者辨认或验证
G10L17/22	.交互程序，人-机界面