一种基于语谱图提取深度空间注意特征的语音情感识别方法

    公开(公告)号:CN109637522A

    公开(公告)日:2019-04-16

    申请号:CN201811599907.9

    申请日:2018-12-26

    摘要: 本发明公开了一种基于语谱图提取深度空间注意特征的语音情感识别方法,采用以下步骤完成:步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;步骤b:将所述语谱图送入AItti模型提取SEF特征;步骤c:将所述语谱图送入语音情感模型提取浅层特征;步骤d:将所述SEF特征和所述浅层特征作为输入,送到CSWNet中,生成标定权重特征;步骤e:将所述标定权重特征送入CRNN之后的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。本发明所述方法相比于传统模型,在少量增加模型复杂度的前提下,平均识别率提升了8.43%,非同类情感区分效果明显,兼具良好的泛化性。

    一种语音识别发音错误的纠正方法及系统

    公开(公告)号:CN109461436A

    公开(公告)日:2019-03-12

    申请号:CN201811239934.5

    申请日:2018-10-23

    发明人: 魏誉荧

    摘要: 本发明提供了一种语音识别发音错误的纠正方法及系统,其方法包括:建立发音易错字对应的标准声学模型和错误声学模型之间的映射表;获取用户语音信息;识别所述用户语音信息,当所述语音信息中包含所述发音易错字时,提取所述用户语音信息中包含所述发音易错字的词语对应的音频片段;当所述音频片段与所述错误声学模型中的语音音频匹配结果为相符时,提示用户所述发音易错字发音错误,并根据所述映射表输出对应的所述标准声学模型中的语音音频。本发明通过建立标准声学模型和错误声学模型之间的映射表,在识别出用户发音易错字发音错误时进行提示并输出相应的正确音频。

    基于机器学习的同声传译方法及装置

    公开(公告)号:CN109300469A

    公开(公告)日:2019-02-01

    申请号:CN201811030459.0

    申请日:2018-09-05

    发明人: 梁志军

    摘要: 本发明公开一种基于机器学习的同声传译方法及装置,其中,所述基于机器学习的同声传译方法包括:采集目标人讲话的讲话内容及讲话特征;利用机器学习并模仿目标人的讲话特征;将目标人的讲话内容翻译为指定语言的讲话内容;以及以指定语言输出经机器模仿目标人讲话特征的讲话内容,其中,所述目标人的语言与指定语言为不同语种。本发明的技术方案能够自动识别翻译,将翻译结果以目标人的讲话特征输出,使翻译结果更加真切,有利于提升用户体验。

    音频分割方法和系统
    7.
    发明公开

    公开(公告)号:CN109147771A

    公开(公告)日:2019-01-04

    申请号:CN201710512310.5

    申请日:2017-06-28

    发明人: 雷延强

    IPC分类号: G10L15/08 G10L15/02

    摘要: 本发明涉及一种音频分割方法和系统,方法包括以下步骤:读取待分割的音频数据的各个音频帧,分别对各个音频帧进行特征提取,得到各个音频帧对应的音频信号特征;将所述音频信号特征输入到预先训练的音频类别分类器,分别计算所述音频信号特征对应的音频帧属于各个音频类别的概率值,根据所述概率值获取所述音频信号特征对应的音频帧所属的目标音频类别;根据各个音频帧所属的目标音频类别对所述音频数据进行音频分割。上述音频分割方法和系统可以将音频数据分割为细小的片段,音频分割精确度高。

    语音识别控制器
    8.
    发明公开

    公开(公告)号:CN109119074A

    公开(公告)日:2019-01-01

    申请号:CN201710481560.7

    申请日:2017-06-22

    发明人: 毕文彬 李旺

    IPC分类号: G10L15/22 G10L15/02

    CPC分类号: G10L15/22 G10L15/02

    摘要: 本发明提供了语音识别控制器,涉及智能控制器技术领域。该语音识别控制器包括语音接收结构,语音识别模块,中央控制器模块和接口模块;接收来自用户的语音生成电信号后,语音识别模块对所述电信号进行处理后,获取语音识别结果,然后中央控制器模块根据存储的关键词与控制信号的映射关系列表,将该语音识别结果转换为对应的控制信号,通过接口模块将控制信号发送至待控制设备或系统。本发明通过获取客户语音,智能识别后发出对应的控制指令,实现智能控制,使电子设备或系统的控制更加灵活和智能。

    一种导入人工智能超深度学习用于语音图像识别的方法

    公开(公告)号:CN109087646A

    公开(公告)日:2018-12-25

    申请号:CN201811249231.0

    申请日:2018-10-25

    发明人: 韩青江

    摘要: 本发明公开了一种导入人工智能超深度学习用于语音图像识别的方法,包括触摸屏、图像识别模块、语音识别模块和CORTEX-A75处理器,述触摸屏具有摄像头、麦克风、程序储存器、随即储存器数据、图像识别模块、语音识别模块和CORTEX-A75处理器,所述图像识别模块包括摄像控制模块和图像对比模块,所述摄像控制模块包括图像处理模块和图片传输模块,所述语音识别模块包括预处理系统、特征提取系统和模式匹配系统,且模式匹配系统内具有语言模型库。人员通过本发明快速识别相应信息,且再识别过程中,可对录入的语音信号进行减噪滤波处理,提高识别的精确性,能实现数据不断更新和上传云端,在扩大检索的范围和多样化的同时,实现数据共享。

    唤醒词识别方法、装置、电子设备及计算机可读存储介质

    公开(公告)号:CN109065044A

    公开(公告)日:2018-12-21

    申请号:CN201811004169.9

    申请日:2018-08-30

    发明人: 胡亚光

    IPC分类号: G10L15/22 G10L15/02

    摘要: 本发明实施例涉及语音处理领域,提供了一种唤醒词识别方法、装置、电子设备及计算机可读存储介质,其中,唤醒词识别方法包括:获取用户输入的待识别的语音信息;接着基于预设的语音识别模型,确定语音信息对应的第一音节序列;接着确定第一音节序列中是否包括预设唤醒词的第二音节序列;接着若包括,则确定语音信息中包括预设唤醒词,并执行相应的唤醒操作。本发明实施例的方法,根据音节序列即可识别出语音信息中是否包括唤醒词,而无需识别语音信息中是否包括唤醒词的字或词语,从而使得语音识别模型无需随着唤醒词的更改而更改,可以固定不变,极大降低设计的复杂度及研发成本。