解码实现方法及装置
    1.
    发明公开

    公开(公告)号:CN113707137A

    公开(公告)日:2021-11-26

    申请号:CN202111007250.4

    申请日:2021-08-30

    IPC分类号: G10L15/14 G10L19/00

    摘要: 本发明涉及一种解码实现方法及装置,包括提供建模单元的HMM模型的拓扑结构,所述拓扑结构包括开始状态、发射状态和结束状态;在所述发射状态设置自跳边,用于发射状态自跳;所述发射状态包括自跳路径和转移路径以使得所述拓扑结构完成序列对齐;所述使得所述拓扑结构完成序列对齐的步骤为:在对每帧音频进行解码时,计算自跳路径使用的空白字符的声学得分和语言得分以及转移路径使用的有效字符的声学得分和语言得分;对比每条路径的得分,确定最高分为发射状态得分;根据所述发射状态得分进行序列对齐。本发明能够使得解码网络中的模型数量大大减少,进而大大减小了解码过程所需的内存。

    一种基于神经网络模型的数据处理方法、装置和电子设备

    公开(公告)号:CN116306781A

    公开(公告)日:2023-06-23

    申请号:CN202310131157.7

    申请日:2023-02-17

    发明人: 赵茂祥 李全忠

    摘要: 本发明公开了一种基于神经网络模型的数据处理方法、装置和电子设备,涉及数据处理技术领域,包括:对神经网络模型N个网络层进行合并,得到M个网络层组;每个网络层组中的网络层在同一个通用处理器结点上并行计算;确定多个第一待输入数据分别对应的目标网络层,基于目标网络层所属的目标网络层组的维度特征,对第一待输入数据进行特征扩展,通过目标网络层组所在的目标通用处理器结点对扩展后的第一待输入数据进行计算,输出第二待输入数据,并更新各第二待输入数据分别对应的目标网络层;响应于目标网络层是第N个网络层,将第N个网络层输出的第三待输入数据作为神经网络模型的输出数据。缩短了计算时间,降低了时延。

    热词增强的语音识别方法以及装置、存储介质、电子装置

    公开(公告)号:CN115132187A

    公开(公告)日:2022-09-30

    申请号:CN202210658379.X

    申请日:2022-06-10

    IPC分类号: G10L15/08 G10L15/16

    摘要: 本申请公开了一种热词增强的语音识别方法以及装置、存储介质、电子装置。该方法包括根据预设解码网络对每一帧语音信号的声学特征进行解码,其中所述解码的过程包括多个解码路径;判断所述解码路径中是否包含热词,其中所述热词按照预设规则存入热词集合中,其中所述热词集合是根据用户自定义得到的;如果判断所述解码路径中包含所述热词,则按照预设衰减模型计算当前热词得分,其中所述预设衰减模型用于表征按照时间衰减的热词权重;根据所述当前热词得分更新对应的所述解码路径的累计得分,输出解码后的语音识别结果。本申请解决了热词增强方法效果不佳的技术问题。

    一种可适应多种频率的语音录入系统

    公开(公告)号:CN111292748A

    公开(公告)日:2020-06-16

    申请号:CN202010082691.X

    申请日:2020-02-07

    摘要: 本发明涉及语音录入系统领域,且公开了一种可适应多种频率的语音录入系统,包括语音采集单元、语音预处理单元、单片机以及存储单元,所述语音采集单元与语音处理单元串口连接,所述语音预处理单元与单片机串口连接,所单片机还与存储单元串口连接。该可适应多种频率的语音录入系统,通过FIR数字滤波器的使用以及设计步骤,在处理多频率语音信号时,滤除了高频噪声和多频杂音,达到了抗混叠的目的,保障后期语音识别的高准确性,并且经过滤波后的信号基本上保持原样,并在滤波后的信号出现了时延,基本将原输入的有用连续信号恢复,使得后信号的延时得到有效的降低,提高了语音录入的效率。

    一种电话网络用文本自动语音录入系统

    公开(公告)号:CN111292747B

    公开(公告)日:2023-08-15

    申请号:CN202010082687.3

    申请日:2020-02-07

    发明人: 何国涛 赵茂祥

    摘要: 本发明涉及语音识别技术领域,且公开了一种电话网络用文本自动语音录入系统,包括MIC硬件、语音识别芯片、语音识别器、MCU微控制单元、客户端硬件;MIC硬件为收录语音的硬件设备;语音识别芯片的内部集成有频谱分析系统和特征提取功能,语音识别芯片的内部设有语音识别器能够对于收集到的语音进行分析识别。该电话网络用文本自动语音录入系统,通过将MCU处理完的语音信息立即进行MD5加密操作,假使在数据传输的过程中,出现了系统入侵数据被盗的情况也不会造成信息泄露,因为MD5加密操作是不可逆的,也就是无法再次完整的进行解密,而破解撞库的方式效率极低,无法完整显示信息内容,能够最大化的保证信息安全。

    一种可适应多种频率的语音录入系统

    公开(公告)号:CN111292748B

    公开(公告)日:2023-07-28

    申请号:CN202010082691.X

    申请日:2020-02-07

    摘要: 本发明涉及语音录入系统领域,且公开了一种可适应多种频率的语音录入系统,包括语音采集单元、语音预处理单元、单片机以及存储单元,所述语音采集单元与语音处理单元串口连接,所述语音预处理单元与单片机串口连接,所单片机还与存储单元串口连接。该可适应多种频率的语音录入系统,通过FIR数字滤波器的使用以及设计步骤,在处理多频率语音信号时,滤除了高频噪声和多频杂音,达到了抗混叠的目的,保障后期语音识别的高准确性,并且经过滤波后的信号基本上保持原样,并在滤波后的信号出现了时延,基本将原输入的有用连续信号恢复,使得后信号的延时得到有效的降低,提高了语音录入的效率。

    基于关键词识别技术的级联唤醒方法、装置和存储介质

    公开(公告)号:CN116312481A

    公开(公告)日:2023-06-23

    申请号:CN202310132392.6

    申请日:2023-02-15

    发明人: 赵茂祥 李全忠

    IPC分类号: G10L15/02 G10L15/22

    摘要: 本说明书实施例提供了一种基于关键词识别技术的级联唤醒方法、装置和存储介质,所述方法包括:接收外部输入的语音信息,所述语音信息包括语音序列;识别所述语音序列中的关键词结点;基于所述关键词结点和语音序列,确定所述语音信息为唤醒信号的概率;根据所述概率,执行唤醒系统或对所述语音序列进行语音识别。本申请提供的技术方案用以解决唤醒系统的性能与嵌入式设备的功耗和计算能力不匹配的问题。

    基于关键词识别技术的语音唤醒方法、装置、设备以及可读存储介质

    公开(公告)号:CN114882875A

    公开(公告)日:2022-08-09

    申请号:CN202210716109.X

    申请日:2022-06-22

    IPC分类号: G10L15/08 G10L15/16 G10L15/22

    摘要: 本发明公开了基于关键词识别技术的语音唤醒方法、装置、设备以及可读存储介质,包括:将获取到的语音数据输入预先训练好的神经网络模型进行计算,以获取语音数据的语音特征的概率分布;将概率分布输入神经网络模型进行快速校验;对快速校验的结果进行判断,若快速校验的结果为可信,则进行语音唤醒;若结果为不可信,则对语音数据进行持续时间和阈值的判断;若语音数据的持续时间和阈值达到了最低要求,则对语音数据进行对唤醒词的语音识别。本申请实施例通过提供基于关键词识别技术的语音唤醒方法、装置、设备以及可读存储介质,解决了现有技术中语音识别准确性不足的问题,实现了语音识别的性能功耗与准确性的平衡。

    情绪识别方法、装置、设备及存储介质

    公开(公告)号:CN114387996A

    公开(公告)日:2022-04-22

    申请号:CN202210040334.6

    申请日:2022-01-14

    摘要: 本发明提供一种情绪识别方法、装置、设备及存储介质,涉及人工智能,该方法包括:根据帧级别特征,获取音频数据的统计特征;将帧级别特征输入至深度神经网络,得到第一情感分值;其中,深度神经网络从输入侧至输出侧依次包括:DNN层、BLSTM模型、注意力层、DNN层及softmax层;注意力层对BLSTM模型在不同时间点的输出进行加权平均计算,获取第一情感表征;将统计特征及第一情感表征输入至SVM分类器模型,得到第二情感分值;根据第一情感分值和第二情感分值,得到情感识别结果;情感识别结果用于表征从音频数据中识别出的情绪状态。本发明能够平衡和利用音频片段中的帧级和句子级的情感信息,可以获得鲁棒性较高的情感识别结果,提高了情感识别的精度。

    基于语音识别的唤醒实现方法及装置

    公开(公告)号:CN113658593B

    公开(公告)日:2024-03-12

    申请号:CN202110933173.9

    申请日:2021-08-14

    IPC分类号: G10L15/22

    摘要: 本发明涉及一种基于语音识别的唤醒实现方法及装置,所述方法包括获取语音数据并对所述语音数据进行特征提取和前向计算;将计算后的语音数据输入到预构建的唤醒模型中,得到所述唤醒模型中唤醒词备选项的置信度;将所述置信度与预设阈值进行对比,根据对比结果判断是否输出唤醒结果。本发明通过语音数据,将备选列表中的内容尽可能多地列入考虑之中,本申请提供的技术方案是通过唤醒实现,因此有效屏蔽了用户的无效输入;将于备选列表的内容尽可能多地列入考虑之中,而不局限于特定词,还能够增加考虑用户说的内容,使得在筛选时更加精确。