-
公开(公告)号:CN118312587A
公开(公告)日:2024-07-09
申请号:CN202410235736.0
申请日:2024-03-01
申请人: 武汉理工大学 , 武汉大晟极科技有限公司
IPC分类号: G06F16/332 , G06F16/36 , G06F16/383 , G06F40/194 , G06F40/30 , G06N5/022 , G06N3/088
摘要: 本发明提供了一种文本检索方法、装置、电子设备及存储介质,属于文本检索领域,其方法包括:获取文本数据和待检索问句;将文本数据和检索问句输入训练完备的文本检索网络中,训练完备的文本检索网络对文本数据进行结构化分段处理得到结构化知识图谱,并对结构化知识图谱各级节点进行语义信息聚合传递,结构化知识图谱包括文档级节点、段落级节点和句子级节点;对待检索问句语义化处理得到问句节点,将问句节点和结构化知识图谱进行相似度匹配得到文本检索结果。本发明通过将文本数据从文档级、段落级和句子级三个层次结构化分段处理为结构化知识图谱,降低了文本处理计算的复杂度,提高了文本检索效率。
-
公开(公告)号:CN117253489A
公开(公告)日:2023-12-19
申请号:CN202310943543.6
申请日:2023-07-27
申请人: 武汉理工大学 , 武汉大晟极科技有限公司
摘要: 本申请公开了一种声纹识别方法、系统、电子设备及存储介质,该方法包括:首先,获取语音数据,并基于感知小波包熵变换方法提取语音数据的PWPE特征向量,通过对语音数据进行初步处理得到PWPE特征向量,以便于捕获到语音数据中的非平稳信号,从而有效适应外部环境的变化;然后,通过CBAM‑Res2Net‑TDNN模型对PWPE特征向量进行数据处理,CBAM‑Res2Net模块能够针对性地识别PWPE特征向量中的非平稳信号,统计池化层和损失函数层能够有效适应声纹验证环境的变化,避免由于验证环境变化导致的声纹识别性能下降的问题。
-
公开(公告)号:CN116758921A
公开(公告)日:2023-09-15
申请号:CN202310546380.8
申请日:2023-05-15
申请人: 武汉理工大学 , 武汉大晟极科技有限公司
IPC分类号: G10L17/02 , G10L17/18 , G10L17/04 , G10L21/02 , G10L21/0208
摘要: 本发明提供一种复杂场景的声纹识别方法、装置、电子设备及存储介质,该方法包括:获取待识别语音数据,对所述待识别语音数据进行预处理,得到目标语音数据;将所述目标语音数据输入至预设的语音识别模型,得到对应的声纹识别结果;其中,所述语音识别模型基于预设的神经网络模型训练得到,所述神经网络模型包括依次堆叠的TDNN层、ECA‑Res2Net网络层、注意力统计池化及正则化层、全连接及正则化层以及损失函数层。本发明可以解决现有技术中声纹识别模型容易受到噪声影响以及鲁棒性较差的技术问题。
-
公开(公告)号:CN113436649A
公开(公告)日:2021-09-24
申请号:CN202110710910.9
申请日:2021-06-25
申请人: 武汉大晟极科技有限公司
摘要: 本发明提供一种语音情感标定辅助方法及系统,该方法包括以下步骤:利用语音情感识别算法对语音信号进行情感识别;基于已标注的语音数据,学习不同情感的韵律规律,即不同情感对应的各个情感特征的变化范围和趋势,进而建立韵律规则;接着借助韵律规则对语音信号进行情感识别;最后,综合这两种情感识别的结果,给出最终的标注结果。本发明一方面使用了语音情感识别算法结果进行智能标定,能大大减少标注人员工作量,提高工作效率;另一方面,结合情感分类任务中不同情感对应不同特征变化的规律,为不同的情感统一了标定标准和规则,提高了人工标定时情感标定的准确性,为标注人员提供专业的情感标注辅助。
-
公开(公告)号:CN110322887A
公开(公告)日:2019-10-11
申请号:CN201910351459.9
申请日:2019-04-28
申请人: 武汉大晟极科技有限公司
IPC分类号: G10L17/02
摘要: 本发明提供一种多类型音频信号能量特征提取方法,选取采样频率,采集说话人的音频信号值;对采集的说话人的音频信号值进行滤波和切片处理,得到若干个一定长度的音频信号帧;建立数组;将每一组音频信号帧与数组相乘,得到局部被放大或者缩小的音频信号切片;对音频信号切片进行幅频分析,计算每一种频率信号的能量;生成一维数组;将所有的音频信号帧的特征形成一个二维数组,作为采集的音频信号的能量特征矩阵;依据该能量特征矩阵得到音频信号每一帧之间能量的变化特征矩阵和不同频率信号之间能量的变化特征矩阵。本发明能获得更加丰富的音频信号能量特征。
-
公开(公告)号:CN117935813B
公开(公告)日:2024-06-14
申请号:CN202410328675.2
申请日:2024-03-21
申请人: 武汉理工大学 , 武汉大晟极科技有限公司
IPC分类号: G10L17/02 , G10L17/20 , G10L17/04 , G10L17/18 , G10L21/0208 , G10L25/24 , G06N3/045 , G06N3/049 , G06N3/048 , G06N3/0464 , G06N3/08
摘要: 本发明提供了一种声纹识别方法及系统,其方法包括:获取包括环境声音的待识别语音,并基于最小均方自适应滤波器对待识别语音进行降噪处理,获得降噪语音;基于小波倒谱熵算法对降噪语音进行特征提取,获得特征向量;将特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果。本发明通过基于最小均方自适应滤波器对待识别语音进行降噪处理,可滤除环境中的大部分噪音,实现对待识别语音进行准确识别的技术效果。并且,通过设置声纹识别模型的结构,可增强提取的特征的表现力和准确性,从而进一步提高了声纹识别模型对带有环境声音的待识别语音的识别准确性。
-
公开(公告)号:CN117877482A
公开(公告)日:2024-04-12
申请号:CN202311827401.X
申请日:2023-12-26
申请人: 武汉大晟极科技有限公司
摘要: 本发明涉及一种基于人脸唇动语音分离的声纹识别方法及装置,该方法包括:构造语音分离网络,所述语音分离网络包括面部属性分析网络、唇动分析网络和音频处理网络;基于所述语音分离网络从待检测视频中提取目标语音;基于声纹识别模型对所述目标语音进行声纹识别;其中,所述面部属性分析网络提取面部属性特征,所述唇动分析网络用于提取嘴唇运动特征,所述音频处理网络用于进行语音分离,所述声纹识别模型是基于注册语音训练得到的。本发明实现了多人说话场景下的单通道语音分离,提高了语音分离的灵活性。
-
公开(公告)号:CN116246634A
公开(公告)日:2023-06-09
申请号:CN202211674664.7
申请日:2022-12-26
申请人: 武汉大晟极科技有限公司
摘要: 本申请提供了一种应用于声纹鉴定的基于后验概率的似然率计算方法及设备,包括步骤:采集音频样本和音频检材;使用音频质量建模算法计算得到音频样本和音频检材的音频有效质量,并对音频样本和音频检材进行特征提取得到音频特征;将音频样本和音频检材的音频有效质量和音频特征输入到自动说话人识别算法中计算得到相似度分数;通过保序回归算法对相似度分数进行校准,得到后验概率;根据后验概率计算得到基于后验概率的似然率,根据似然率出具声纹鉴定意见。本申请可以让自动说话人识别算法根据当前比较的检材和样本的音频质量进行相似度评估,能够提升说话人识别算法的准确性和鲁棒性。
-
公开(公告)号:CN113409796B
公开(公告)日:2022-09-27
申请号:CN202110510987.1
申请日:2021-05-11
申请人: 武汉大晟极科技有限公司
摘要: 本发明提供一种基于长时共振峰测量的语音同一性验证方法,已知一份来自同一说话人的语音文件,计算已知的语音文件中,任意两段语音的长时共振峰数据之间的距离,获得上限距离和下限距离,当采集到一份检材语音时,计算检材语音与已知语音文件的长时共振峰距离,若小于下限距离,则判断该检材语音与已知语音文件具有同一性;若大于上限距离,判断该检材语音与已知语音文件不具有同一性;若在上下限距离之间,则采用假设检验法来对同一性进行验证。本发明通过获取语音文件的长时共振峰,根据长时共振峰的距离,结合假设检验法,来进行语音同一性验证,能够提高验证的精度。
-
公开(公告)号:CN110322887B
公开(公告)日:2021-10-15
申请号:CN201910351459.9
申请日:2019-04-28
申请人: 武汉大晟极科技有限公司
IPC分类号: G10L17/02
摘要: 本发明提供一种多类型音频信号能量特征提取方法,选取采样频率,采集说话人的音频信号值;对采集的说话人的音频信号值进行滤波和切片处理,得到若干个一定长度的音频信号帧;建立数组;将每一组音频信号帧与数组相乘,得到局部被放大或者缩小的音频信号切片;对音频信号切片进行幅频分析,计算每一种频率信号的能量;生成一维数组;将所有的音频信号帧的特征形成一个二维数组,作为采集的音频信号的能量特征矩阵;依据该能量特征矩阵得到音频信号每一帧之间能量的变化特征矩阵和不同频率信号之间能量的变化特征矩阵。本发明能获得更加丰富的音频信号能量特征。
-
-
-
-
-
-
-
-
-