-
-
公开(公告)号:CN109637522A
公开(公告)日:2019-04-16
申请号:CN201811599907.9
申请日:2018-12-26
申请人: 杭州电子科技大学
CPC分类号: G10L15/02 , G06K9/6267 , G06N3/0454 , G10L15/063 , G10L15/16
摘要: 本发明公开了一种基于语谱图提取深度空间注意特征的语音情感识别方法,采用以下步骤完成:步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;步骤b:将所述语谱图送入AItti模型提取SEF特征;步骤c:将所述语谱图送入语音情感模型提取浅层特征;步骤d:将所述SEF特征和所述浅层特征作为输入,送到CSWNet中,生成标定权重特征;步骤e:将所述标定权重特征送入CRNN之后的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。本发明所述方法相比于传统模型,在少量增加模型复杂度的前提下,平均识别率提升了8.43%,非同类情感区分效果明显,兼具良好的泛化性。
-
公开(公告)号:CN109637521A
公开(公告)日:2019-04-16
申请号:CN201811389295.0
申请日:2018-11-21
申请人: 深圳壹账通智能科技有限公司
发明人: 高立志
CPC分类号: G10L15/265 , G06K9/00281 , G06K9/00335 , G06K9/6215 , G06K9/629 , G10L15/02 , G10L15/06 , G10L15/20 , G10L15/25
摘要: 本发明实施例提供了一种基于深度学习的唇语识别方法及装置,该方法包括:获取用户的语音信号及视频,其中,视频为在用户发出语音信号的过程中对用户的面部进行拍摄得到的;通过语音识别技术识别语音信号,得到第一文本;从视频中获取待识别唇部图像序列;从待识别唇部图像序列中提取唇部特征向量,并根据唇部特征向量得到第二文本;根据第二文本修正第一文本,得到用户的语音信号对应的文本。本发明实施例提供的技术方案能够解决现有技术中吵杂环境中语音识别准确度低的问题。
-
公开(公告)号:CN109461436A
公开(公告)日:2019-03-12
申请号:CN201811239934.5
申请日:2018-10-23
申请人: 广东小天才科技有限公司
发明人: 魏誉荧
CPC分类号: G10L15/01 , G10L15/02 , G10L15/063 , G10L15/10 , G10L25/60 , G10L2015/0635
摘要: 本发明提供了一种语音识别发音错误的纠正方法及系统,其方法包括:建立发音易错字对应的标准声学模型和错误声学模型之间的映射表;获取用户语音信息;识别所述用户语音信息,当所述语音信息中包含所述发音易错字时,提取所述用户语音信息中包含所述发音易错字的词语对应的音频片段;当所述音频片段与所述错误声学模型中的语音音频匹配结果为相符时,提示用户所述发音易错字发音错误,并根据所述映射表输出对应的所述标准声学模型中的语音音频。本发明通过建立标准声学模型和错误声学模型之间的映射表,在识别出用户发音易错字发音错误时进行提示并输出相应的正确音频。
-
公开(公告)号:CN109389849A
公开(公告)日:2019-02-26
申请号:CN201810865033.0
申请日:2018-08-01
IPC分类号: G08G1/0968 , G10L15/02
CPC分类号: G10L15/02 , G06F16/3329 , G06F16/90332 , G06Q30/0269 , G10L15/22 , G10L15/26 , G10L25/54 , G10L2015/088 , G08G1/096855 , G08G1/096877
摘要: 本发明涉及信息提供装置和信息提供系统。信息提供装置包括:话语内容获取单元,其被配置成获取话语内容;特征词提取单元,其被配置成提取特征词;话语时间信息获取单元,其被配置成当特征词被说出时获取与车辆的位置或目的地有关的信息;话语次数计数单元,其被配置成针对位置指示符中的每一个对多个不同词中的每个词的话语次数进行计数;当前信息获取单元,其被配置成获取与预定的目标车辆的位置或目的地有关的信息;以及信息提供单元,被配置成基于来自话语次数计数单元的与目标车辆的位置对应的位置指示符的计数结果或与目标车辆的目的地对应的目的地指示符的计数结果来向用户提供信息。
-
公开(公告)号:CN109300469A
公开(公告)日:2019-02-01
申请号:CN201811030459.0
申请日:2018-09-05
申请人: 满金坝(深圳)科技有限公司
发明人: 梁志军
CPC分类号: G10L15/005 , G06F17/289 , G10L15/02 , G10L15/075
摘要: 本发明公开一种基于机器学习的同声传译方法及装置,其中,所述基于机器学习的同声传译方法包括:采集目标人讲话的讲话内容及讲话特征;利用机器学习并模仿目标人的讲话特征;将目标人的讲话内容翻译为指定语言的讲话内容;以及以指定语言输出经机器模仿目标人讲话特征的讲话内容,其中,所述目标人的语言与指定语言为不同语种。本发明的技术方案能够自动识别翻译,将翻译结果以目标人的讲话特征输出,使翻译结果更加真切,有利于提升用户体验。
-
公开(公告)号:CN109147771A
公开(公告)日:2019-01-04
申请号:CN201710512310.5
申请日:2017-06-28
申请人: 广州视源电子科技股份有限公司
发明人: 雷延强
CPC分类号: G10L15/08 , G10L15/02 , G10L15/04 , G10L15/063 , G10L25/54 , G10L2015/0631
摘要: 本发明涉及一种音频分割方法和系统,方法包括以下步骤:读取待分割的音频数据的各个音频帧,分别对各个音频帧进行特征提取,得到各个音频帧对应的音频信号特征;将所述音频信号特征输入到预先训练的音频类别分类器,分别计算所述音频信号特征对应的音频帧属于各个音频类别的概率值,根据所述概率值获取所述音频信号特征对应的音频帧所属的目标音频类别;根据各个音频帧所属的目标音频类别对所述音频数据进行音频分割。上述音频分割方法和系统可以将音频数据分割为细小的片段,音频分割精确度高。
-
公开(公告)号:CN109119074A
公开(公告)日:2019-01-01
申请号:CN201710481560.7
申请日:2017-06-22
申请人: 上海智建电子工程有限公司
摘要: 本发明提供了语音识别控制器,涉及智能控制器技术领域。该语音识别控制器包括语音接收结构,语音识别模块,中央控制器模块和接口模块;接收来自用户的语音生成电信号后,语音识别模块对所述电信号进行处理后,获取语音识别结果,然后中央控制器模块根据存储的关键词与控制信号的映射关系列表,将该语音识别结果转换为对应的控制信号,通过接口模块将控制信号发送至待控制设备或系统。本发明通过获取客户语音,智能识别后发出对应的控制指令,实现智能控制,使电子设备或系统的控制更加灵活和智能。
-
公开(公告)号:CN109087646A
公开(公告)日:2018-12-25
申请号:CN201811249231.0
申请日:2018-10-25
申请人: 武汉拓睿传奇科技有限公司
发明人: 韩青江
IPC分类号: G10L15/22 , G10L15/02 , G10L21/0208 , H04L29/08 , G06K9/62
CPC分类号: G10L15/22 , G06K9/6201 , G10L15/02 , G10L21/0208 , H04L67/025
摘要: 本发明公开了一种导入人工智能超深度学习用于语音图像识别的方法,包括触摸屏、图像识别模块、语音识别模块和CORTEX-A75处理器,述触摸屏具有摄像头、麦克风、程序储存器、随即储存器数据、图像识别模块、语音识别模块和CORTEX-A75处理器,所述图像识别模块包括摄像控制模块和图像对比模块,所述摄像控制模块包括图像处理模块和图片传输模块,所述语音识别模块包括预处理系统、特征提取系统和模式匹配系统,且模式匹配系统内具有语言模型库。人员通过本发明快速识别相应信息,且再识别过程中,可对录入的语音信号进行减噪滤波处理,提高识别的精确性,能实现数据不断更新和上传云端,在扩大检索的范围和多样化的同时,实现数据共享。
-
公开(公告)号:CN109065044A
公开(公告)日:2018-12-21
申请号:CN201811004169.9
申请日:2018-08-30
申请人: 出门问问信息科技有限公司
发明人: 胡亚光
CPC分类号: G10L15/22 , G10L15/02 , G10L2015/027 , G10L2015/223
摘要: 本发明实施例涉及语音处理领域,提供了一种唤醒词识别方法、装置、电子设备及计算机可读存储介质,其中,唤醒词识别方法包括:获取用户输入的待识别的语音信息;接着基于预设的语音识别模型,确定语音信息对应的第一音节序列;接着确定第一音节序列中是否包括预设唤醒词的第二音节序列;接着若包括,则确定语音信息中包括预设唤醒词,并执行相应的唤醒操作。本发明实施例的方法,根据音节序列即可识别出语音信息中是否包括唤醒词,而无需识别语音信息中是否包括唤醒词的字或词语,从而使得语音识别模型无需随着唤醒词的更改而更改,可以固定不变,极大降低设计的复杂度及研发成本。
-
-
-
-
-
-
-
-
-