专利检索 ap:("华南理工大学") AND inv:"张伟彬" 第 1 页

1.

发明公开
一种用于语音识别的新型时延递归神经网络审中-实审

公开(公告)号：CN109360553A

公开(公告)日：2019-02-19

申请号：CN201811380751.5

申请日：2018-11-20

申请人： 华南理工大学

发明人： 刘柏基 , 张伟彬 , 徐向民

IPC分类号： G10L15/16

摘要： 本发明公开了一种用于语音识别的新型时延递归神经网络，包括线性判别分析层、时延神经网络层和深度时延递归神经网络层，线性判别分析层与时延神经网络层最下层连接，深度时延递归神经网络层设置在两个时延神经网络层之间，包括深度神经网络层和时延递归神经网络层，时延递归神经网络层分别与上下两层时延神经网络层连接，深度神经网络层中的普通神经网络结构与时延递归神经网络层中的时延递归神经网络结构对应连接；本发明的一种用于语音识别的新型时延递归神经网络可在保持网络结构简单的同时，达到和长短时记忆单元相似的效果，从而提高训练效率、减少运算消耗、减少模型体积。

2.

发明公开
一种基于随机深度时延神经网络模型的自动语音识别方法有权

公开(公告)号：CN109065033A

公开(公告)日：2018-12-21

申请号：CN201811091089.1

申请日：2018-09-19

申请人： 华南理工大学

发明人： 黄晓荣 , 张伟彬 , 徐向民 , 殷瑞祥

IPC分类号： G10L15/16 , G10L15/14

CPC分类号： G10L15/16 , G10L15/144

摘要： 本发明属于自动语音识别技术领域，涉及一种基于随机深度时延神经网络模型的自动语音识别方法，包括：准备训练数据；对训练语音音频数据提取声学特征；训练传统GMM‑HMM模型，用训练好的GMM‑HMM模型对训练语音音频数据进行强制对齐，得到对应的帧级别训练标注；利用训练语音音频数据和对应的帧级别训练标注，对基于随机深度的时延神经网络模型进行监督训练，最终结合隐马尔科夫模型得到声学模型；利用对应的文本标注数据或者其他数据集的文本进行训练，得到训练好的语言模型；利用训练好的语言模型和声学模型，构建自动语音识别的解码器。本发明不仅提高了模型的建模能力，还解决了训练过程中过拟合以及梯度消失的问题，从而提高了语音识别的准确性。

3.

发明公开
一种基于文件传输的人脸表情识别方法及系统失效

公开(公告)号：CN107133578A

公开(公告)日：2017-09-05

申请号：CN201710257046.5

申请日：2017-04-19

申请人： 华南理工大学

发明人： 邓诗雨 , 刘龙至 , 张伟彬 , 李嘉恒 , 林泽宏 , 肖玉可 , 刘梓熙

IPC分类号： G06K9/00 , G06K9/62 , G06N3/04

摘要： 本发明公开了一种基于文件传输的人脸表情识别方法及系统，包括获取用户上传的人脸表情图像；系统对所述人脸表情图像进行预处理；通过recog指令及已经训练完成的深度神经网络和训练得到的模型对所述预处理后的人脸表情图像进行人脸表情识别与特征匹配；识别结果以文本文件的形式输出，通过文件传输，反馈给用户。本发明应用了文件传输模块，用户使用方便；采用了深度卷积神经网络对人脸表情图像特征提取并分类，可以快速准确的识别出人脸表情，操作简单，稳定可靠。

4.

发明授权
一种基于零次学习的跨语种音色转换系统及方法有权

公开(公告)号：CN112767958B

公开(公告)日：2023-12-26

申请号：CN202110217545.8

申请日：2021-02-26

申请人： 华南理工大学

发明人： 杨镇川 , 张伟彬 , 徐向民 , 邢晓芬 , 陈艺荣

IPC分类号： G10L21/013 , G10L25/87 , G10L25/24 , G10L25/30 , G10L15/02 , G10L15/06 , G10L15/07 , G10L19/02 , G10L19/26

摘要： 本发明公开了一种基于零次学习的跨语种音色转换系统及方法，该系统依次包括混合音素识别模块、音色转换模块、说话人编码模块、声码器模块。该系统将语音信号梅尔谱作为输入信号，通过一个音素识别模块提取其瓶颈特征，并对特征做归一化后传送到声学模型中，通过控制说话人参考向量，从而控制声学模型合成的梅尔谱，最后通过一个声码器合成音频。该系统能将一般说话人语音转换成指定说话人音色，并且适用于并未出现在训练数据库中的口音语料，能够适用于多地区方言的变声，具有广阔的应用前景。

5.

发明公开
一种基于零次学习的跨语种音色转换系统及方法审中-实审

公开(公告)号：CN112767958A

公开(公告)日：2021-05-07

申请号：CN202110217545.8

申请日：2021-02-26

申请人： 华南理工大学

发明人： 杨镇川 , 张伟彬 , 徐向民 , 邢晓芬 , 陈艺荣

IPC分类号： G10L21/013 , G10L25/87 , G10L25/24 , G10L25/30 , G10L15/02 , G10L15/06 , G10L15/07 , G10L19/02 , G10L19/26

摘要： 本发明公开了一种基于零次学习的跨语种音色转换系统及方法，该系统依次包括混合音素识别模块、音色转换模块、说话人编码模块、声码器模块。该系统将语音信号梅尔谱作为输入信号，通过一个音素识别模块提取其瓶颈特征，并对特征做归一化后传送到声学模型中，通过控制说话人参考向量，从而控制声学模型合成的梅尔谱，最后通过一个声码器合成音频。该系统能将一般说话人语音转换成指定说话人音色，并且适用于并未出现在训练数据库中的口音语料，能够适用于多地区方言的变声，具有广阔的应用前景。

6.

发明公开
基于BPE编码的序列化方法、训练方法、系统及存储介质审中-实审

公开(公告)号：CN111916063A

公开(公告)日：2020-11-10

申请号：CN202010484848.1

申请日：2020-06-01

申请人： 华南理工大学

发明人： 刘柏基 , 张伟彬 , 徐向民

IPC分类号： G10L15/06 , G10L15/16 , G06F40/242 , G06F40/126

摘要： 本发明公开了一种基于BPE编码的序列化方法、系统、装置及存储介质，其中方法包括以下步骤：获取中英混合的标注文本，采用基于BPE编码算法生成的字典将所述标注文本中的中文序列分为多个汉字，以及将所述标注文本中的英文序列拆分为多个字母串；将拆分获得的所述汉字和所述字母串作为标注序列，用于对端到端语音识别模型进行训练；所述字母串中包含有标识符，根据所述标识符将所述字母串合并成英文单词。本发明对于文本中的中文采用字级别的拆分，对于英文按照BPE编码所得字典进行拆分，解决中文字和英文单词发音长度不一致的问题，使得英文子串近似于中文发音长度，提升了端到端语音识别模型的性能，可广泛应用于计算机软件技术领域。

7.

发明授权
一种基于文件传输的人脸表情识别方法及系统失效

公开(公告)号：CN107133578B

公开(公告)日：2020-05-22

申请号：CN201710257046.5

申请日：2017-04-19

申请人： 华南理工大学

发明人： 邓诗雨 , 刘龙至 , 张伟彬 , 李嘉恒 , 林泽宏 , 肖玉可 , 刘梓熙

IPC分类号： G06K9/00 , G06K9/62 , G06N3/04

摘要： 本发明公开了一种基于文件传输的人脸表情识别方法及系统，包括获取用户上传的人脸表情图像；系统对所述人脸表情图像进行预处理；通过recog指令及已经训练完成的深度神经网络和训练得到的模型对所述预处理后的人脸表情图像进行人脸表情识别与特征匹配；识别结果以文本文件的形式输出，通过文件传输，反馈给用户。本发明应用了文件传输模块，用户使用方便；采用了深度卷积神经网络对人脸表情图像特征提取并分类，可以快速准确的识别出人脸表情，操作简单，稳定可靠。

8.

发明授权
一种改进的延时神经网络声学模型有权

公开(公告)号：CN109147774B

公开(公告)日：2021-07-20

申请号：CN201811090966.3

申请日：2018-09-19

申请人： 华南理工大学

发明人： 陈凯斌 , 张伟彬 , 徐向民

IPC分类号： G10L15/16

摘要： 本发明属于语音识别技术领域，涉及一种改进的延时神经网络声学模型，包括：搭建基础TDNN网络；在相邻的两层隐藏层中间添加注意力模块，得到改进后的TDNN网络；针对改进后的TDNN网络进行训练，得到最终的声学模型。注意力模块由一个仿射变换和一个加权函数组成，以前一隐藏层的输出作为输入，提取对输入的特征权重值，用提取到的权重值为原输入特征加权，得到加权后的特征。本发明在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下，通过多层次地为神经网络隐藏层特征加权，有效对层间特征的相对重要性进行显式建模，提高了TDNN声学模型的性能，从而提高了语音识别系统整体性能。

9.

发明授权
一种基于随机深度时延神经网络模型的自动语音识别方法有权

公开(公告)号：CN109065033B

公开(公告)日：2021-03-30

申请号：CN201811091089.1

申请日：2018-09-19

申请人： 华南理工大学

发明人： 黄晓荣 , 张伟彬 , 徐向民 , 殷瑞祥

IPC分类号： G10L15/16 , G10L15/14

摘要： 本发明属于自动语音识别技术领域，涉及一种基于随机深度时延神经网络模型的自动语音识别方法，包括：准备训练数据；对训练语音音频数据提取声学特征；训练传统GMM‑HMM模型，用训练好的GMM‑HMM模型对训练语音音频数据进行强制对齐，得到对应的帧级别训练标注；利用训练语音音频数据和对应的帧级别训练标注，对基于随机深度的时延神经网络模型进行监督训练，最终结合隐马尔科夫模型得到声学模型；利用对应的文本标注数据或者其他数据集的文本进行训练，得到训练好的语言模型；利用训练好的语言模型和声学模型，构建自动语音识别的解码器。本发明不仅提高了模型的建模能力，还解决了训练过程中过拟合以及梯度消失的问题，从而提高了语音识别的准确性。

10.

发明公开
一种针对卡通人物面部表情的识别方法无效

公开(公告)号：CN107180225A

公开(公告)日：2017-09-19

申请号：CN201710257911.6

申请日：2017-04-19

申请人： 华南理工大学

发明人： 邓诗雨 , 刘龙至 , 张伟彬 , 李嘉恒 , 肖玉可 , 林泽宏 , 刘梓熙

IPC分类号： G06K9/00

CPC分类号： G06K9/00302 , G06K9/00288

摘要： 本发明提供了一种针对卡通人物面部表情的识别方法，包括：获取卡通人物面部表情图片，进行预处理得到标准格式图片，并针对卡通人物面部表情特征，调整构建针对卡通人物面部表情识别的深度卷积神经网络，通过训练完成的深度卷积神经网络对该图片进行特征匹配，识别效果包括各个表情的识别概率，并将概率较高的结果进一步返回给用户。本发明方法可以提高对卡通人物表情识别的稳定性和效率，达到较高的识别率。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类