一种基于子空间表示学习的声学事件识别方法

    公开(公告)号:CN110148428B

    公开(公告)日:2021-04-02

    申请号:CN201910447562.3

    申请日:2019-05-27

    Abstract: 一种基于子空间表示学习的声学事件识别方法,涉及声音信号处理技术领域,为解决现有技术在AER任务中,语义特征提取时不能兼顾原始信号本质内容和时序结构的问题,包括:步骤1、信号预处理,步骤2、帧级特征提取,步骤3、子声学事件特征提取,步骤4、子声学事件特征的时序扩展,步骤5、子声学事件特征间的整体语义特征提取,步骤6、声学事件的识别,本发明提取语义特征时,能够兼顾原始信号的整体内容信息和全局时序结构。

    基于多示例学习的自动语音识别困难样本挖掘方法

    公开(公告)号:CN110335594A

    公开(公告)日:2019-10-15

    申请号:CN201910625555.8

    申请日:2019-07-11

    Abstract: 本发明提供基于多示例学习的自动语音识别困难样本挖掘方法,属于语音信号处理技术领域。本发明首先收集语料数据建立数据集、选取训练数据;然后对训练集进行人工标注;使用标注好的训练集建立困难样本检测模型,并对其进行训练;再用训练好的困难样本检测模型在剩余集合上挖掘候选困难样本;最后进行困难样本筛选与标注:对检测到的候选困难样本进行人工确认,同时将人工确认后的困难样本进行标注。本发明解决了现有自动语音识别技术需要人工标注大量数据集的问题。本发明可用于语音识别系统对新领域的快速自适应。

    一种基于多尺度上下文的单通道语音增强方法

    公开(公告)号:CN110136741A

    公开(公告)日:2019-08-16

    申请号:CN201910411692.1

    申请日:2019-05-16

    Abstract: 一种基于多尺度上下文的单通道语音增强方法,本发明涉及单通道语音增强方法。本发明是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题。过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。本发明用于语音增强领域。

    一种低计算资源多级架构流式语音识别方法

    公开(公告)号:CN119314489A

    公开(公告)日:2025-01-14

    申请号:CN202411427306.5

    申请日:2024-10-12

    Abstract: 本发明提出了一种低计算资源多级架构流式语音识别方法,联合优化的RNN‑T流式语音识别架构和CTC流式语音识别架构,提出多级混合流式语音识别架构,复用RNN‑T架构下编码器不同层级作为CTC语音识别编码器,整体降低了流式语音识别模型复杂度,提高模型在端侧推理的资源占用灵活性,该架构支持在边缘设备推理时刻针对于设备CPU状态自适应选取模型不同复杂度模块进行流式推理,保证了极端低计算资源下条件下语音识别模型的识别功能,在端侧设备突发性的计算资源紧张环境仍能够完成语音识别功能,保障语音识别系统安全性以及端侧设备系统稳定性。

    一种可区域增强的声学参量阵
    25.
    发明公开

    公开(公告)号:CN116939430A

    公开(公告)日:2023-10-24

    申请号:CN202310467811.1

    申请日:2023-04-27

    Abstract: 本发明公开了一种可区域增强的声学参量阵,包括以下构件组成:阵列总成、动力与支撑机构总成。阵列总成是其核心构件,包括阵列中心单元总成和围绕在中心单元旁边的至少两个超声发射器子阵列总成。本发明与现有技术相比,能实现将声阵列中所有超声发射器产生的声场在指定方向、指定距离的区域内汇聚增强的功能。从而既能在目标区域产生较高强度的声场,又能减小目标区域外的声音强度,更好地实现向指定区域播放声音的功能,在使用声阵列的过程中,可以手工或借由控制部件灵活地调整声音的播放区域。其结构简单,容易制造,成本低。

    一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备

    公开(公告)号:CN113704552A

    公开(公告)日:2021-11-26

    申请号:CN202111012714.0

    申请日:2021-08-31

    Abstract: 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备,它属于机器的多模态感知技术领域。本发明解决了现有情感分析技术需要人工对各模态序列进行对齐标注的问题。本发明对现有大规模预训练语言模型的多模态情感分析方法进行改进,使本发明方法不需要人工的对齐标注,因而适合目前大规模数据量、未对齐的多模态序列场景的情形,极大地提高了其实用性。而且,将本发明提出的方法在公开的最常使用的多模态情感分析的2个数据集上进行验证,结果表明其分类性能较基线系统有很大提高。本发明可以应用于情感分析。

    基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质

    公开(公告)号:CN113380232A

    公开(公告)日:2021-09-10

    申请号:CN202110661855.9

    申请日:2021-06-15

    Abstract: 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质,属于语音识别技术领域。本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。本发明首先首先对原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算;然后,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用解码器进行识别,并用以训练识别器,得到语音识别模型。本发明通过产生均匀、连续且稀疏的注意力得分向量,以降低瞥向量中预测无关信息占比,进而达到提升识别性能的目的。本发明主要用于语音的识别。

    一种基于多尺度上下文的单通道语音增强方法

    公开(公告)号:CN110136741B

    公开(公告)日:2021-07-13

    申请号:CN201910411692.1

    申请日:2019-05-16

    Abstract: 一种基于多尺度上下文的单通道语音增强方法,本发明涉及单通道语音增强方法。本发明是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题。过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。本发明用于语音增强领域。

Patent Agency Ranking