-
公开(公告)号:CN105427533A
公开(公告)日:2016-03-23
申请号:CN201510996269.4
申请日:2015-12-24
申请人: 华南理工大学
摘要: 本发明公开了一种识别儿童哭叫声的可穿戴监护器,包括主控模块、儿童哭叫声识别模块、GPS定位模块、短信发送模块和现场音传送模块,其中儿童哭叫声识别模块实时采集周围环境声音,将儿童的哭叫声与环境中的其他声音区分开,并把儿童哭叫信息发送给主控模块;主控模块向预设的手机号码发送包括位置信息在内的报警短信,同时拨打预设手机号码在对方接通电话号时传送现场声音。本发明的可穿戴监护器,具有儿童哭叫声辨识并自动触发报警、GPS定位信息发送及现场声音传送等功能,自动化程度高、使用方便。
-
公开(公告)号:CN103137137B
公开(公告)日:2015-07-01
申请号:CN201310061167.4
申请日:2013-02-27
申请人: 华南理工大学
摘要: 一种会议音频中的精彩说话人发现方法,步骤如下:读入会议音频;检测上述音频中的掌声音频段,将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到精彩语音段在会议音频中出现的位置;对上述精彩语音段进行说话人聚类,得到精彩说话人个数及其精彩语音段。本发明的有益效果是:基于掌声检测和说话人聚类,快速有效地估计出会议音频中的精彩说话人个数、精彩语音段及其在会议音频中出现的位置,为会议音频的快速浏览、摘要提取、说话人检索等奠定基础。
-
公开(公告)号:CN102968986B
公开(公告)日:2015-01-28
申请号:CN201210442113.8
申请日:2012-11-07
申请人: 华南理工大学
摘要: 本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分帧、加窗;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化算法训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。
-
公开(公告)号:CN104021785A
公开(公告)日:2014-09-03
申请号:CN201410231431.9
申请日:2014-05-28
申请人: 华南理工大学
IPC分类号: G10L15/02
摘要: 本发明公开了一种提取会议中最重要嘉宾语音的方法,包括以下步骤:S1、读入记录有会议语音的音频文件;S2、说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,从而将音频文件分成多个语音段;S3、语音段的距离比较及合并:比较上述语音段中最长语音段与第二长语音段之间的距离,根据该距离与门限的关系判断这两个语音段是不是最重要嘉宾的语音,再根据其他语音段(除了最长和第二长语音段之外的语音段)与上述两个语音段之间的距离,判断其他语音段是不是最重要嘉宾的语音,从而得到最重要嘉宾的所有语音段。本发明为会议语音的快速浏览、主题提取、说话人检索等奠定了基础。
-
公开(公告)号:CN103559882A
公开(公告)日:2014-02-05
申请号:CN201310479266.4
申请日:2013-10-14
申请人: 华南理工大学
IPC分类号: G10L17/02
摘要: 本发明公开了一种基于说话人分割的会议主持人语音提取方法,包括如下步骤:S1、读入记录有会议语音的音频文件;S2、说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段;S3、语音段距离比较:将说话人分割之后的第一个语音段作为会议主持人的语音,并比较该语音段与其他语音段的距离,将距离小于门限的语音段也判为会议主持人语音,从而得到会议主持人的所有语音段。本发明为会议语音的快速浏览、主题提取、说话人检索等奠定了基础,具有能快速有效地提取出会议主持人的语音等优点。
-
公开(公告)号:CN117876625A
公开(公告)日:2024-04-12
申请号:CN202311753697.5
申请日:2023-12-19
申请人: 华南理工大学
摘要: 本发明公开了一种联合显式和隐式表面表达的多视角重建方法及装置,属于三维重建技术领域。其中方法包括:首先,获取重建目标物体的多视角图像以及对应的相机参数;接着,构建显式表面表达和相应的表面位置特征编码器;同时,构建隐式表面表达和相应的空间位置特征编码器;构建两种表达共用的颜色解码器;根据相机参数采样光线和对应图像像素颜色,使用显式表达进行表面渲染优化,同时使用隐式表达进行体积渲染优化,最终获得高质量重建的三维物体表面。在迭代优化过程中,隐式表达指导显式表达向真值表面形变,显式表达指导隐式表达渲染过程中的光线采样。本发明结合了隐式表达优化稳定和显式表达渲染采样高效的优点,提升了重建精度与优化效率。
-
公开(公告)号:CN113990303B
公开(公告)日:2024-04-12
申请号:CN202111178962.2
申请日:2021-10-08
申请人: 华南理工大学
摘要: 本发明公开了一种基于多分辨率空洞深度可分卷积网络的环境声音辨识方法,包括下列步骤:首先采集环境声音音频样本;接着对音频样本进行预加重、分帧和加窗处理,再提取对数梅尔谱特征;然后将对数梅尔谱特征依次输入多分辨率空洞深度可分卷积网络的输入模块、空洞深度可分卷积模块和多分辨率深度特征模块进行特征变换与拼接,得到更具区分性的多分辨率深度特征;最后在多分辨率空洞深度可分卷积网络的输出模块对输入音频样本的多分辨率深度特征进行判决,得到环境声音类别。与基于常规卷积网络的方法相比,本发明方法运算量更小、相同网络参数规模时的感受野更大。与基于常规轻量级网络的方法相比,本发明方法的环境声音辨识精度更高。
-
公开(公告)号:CN115457968A
公开(公告)日:2022-12-09
申请号:CN202211030964.1
申请日:2022-08-26
申请人: 华南理工大学
摘要: 本发明公开了一种基于混合分辨率深度可分卷积网络的声纹确认方法,步骤如下:首先,从语音样本提取梅尔倒谱系数;接着,将提取出的梅尔倒谱系数输入混合分辨率深度可分卷积网络进行特征变换得到说话人表征矢量;然后,将得到的说话人表征矢量与注册声纹库中的相应说话人表征均值矢量一起输入后端判决模块进行相似度评分,实现声纹确认。本发明采用多个不同尺寸的卷积核对输入特征进行分组卷积操作,获取多种分辨率的说话人区分性信息,提高声纹确认性能。与采用基于单一分辨率卷积网络的传统方法相比,本发明方法不但减少了参数量、降低了计算复杂度,而且声纹确认的等错误率低。
-
公开(公告)号:CN112951242B
公开(公告)日:2022-10-25
申请号:CN202110140928.X
申请日:2021-02-02
申请人: 华南理工大学
摘要: 本发明公开了一种基于孪生神经网络的短语音说话人匹配方法,步骤如下:构造训练样本对;从各样本提取对数梅尔能量谱特征;搭建孪生神经网络,包括依次连接的空洞循环卷积子网络、说话人表征层和Sigmoid输出模块;将从各训练样本对提取的对数梅尔能量谱特征输入空洞循环卷积子网络以得到样本对的两个说话人表征矢量;拼接样本对的两个说话人表征矢量并输入Sigmoid输出模块,训练孪生神经网络;采用经训练的孪生神经网络判断输入的两段短语音是否属于同一个说话人,得到说话人匹配结果。本方法引入空洞循环卷积子网络使孪生神经网络获得更大的感受野,并利用语音样本前后帧之间的说话人信息,获得更好的说话人匹配结果。
-
公开(公告)号:CN113823292A
公开(公告)日:2021-12-21
申请号:CN202110954659.0
申请日:2021-08-19
申请人: 华南理工大学
摘要: 本发明公开了一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,步骤如下:从训练语音提取对数梅尔谱特征,训练得到通道注意力深度可分卷积网络;将注册(小样本)语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;将测试语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。本发明方法既减小了网络规模又降低了网络训练难度,有效缓解小样本话者辨认的过拟合问题,获得更满意话者辨认结果。
-
-
-
-
-
-
-
-
-