-
公开(公告)号:CN115410556B
公开(公告)日:2024-10-22
申请号:CN202210976069.2
申请日:2022-08-15
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明提供一种元对抗学习提升多语言预训练与低资源语音识别的方法,采用CTC‑注意力联合的端到端语音识别网络架构,在端到端语音识别网络架构中的编码器的输出端添加语言识别器,在元学习外循环中利用所述语言识别器与更新的语音识别模型对抗,引导更新的语音识别模型产生与语言无关的表征,缩小不同语言在语义空间中的差距;所述语言识别器由浅层至深层依次包括第一Linear层、第一Relu层、第二Linear层、第二Relu层、第三Linear层和softmax层。本发明可以解决不同语言数据规模与难度差异大导致ASR模型容易对一些语言产生倾向性以及不容易学习多种语言之间的共享语义空间的问题。
-
公开(公告)号:CN112651407B
公开(公告)日:2023-10-20
申请号:CN202011640809.2
申请日:2020-12-31
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC分类号: G06V10/40 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
摘要: 本发明涉及一种基于区分性反卷积的CNN可视化方法,方法包括给定输入图像进行特征提取,并得到最高层特征图和分类结果,基于最高层特征图,使用Grad‑CAM方法,生成类别激活图。一方面,将类别激活图作为初始特征图,逐层反卷积到输入空间,生成具有类别区分性的热力图。另一方面,将类别激活图逐层融合中间层特征图,并使用反卷积恢复到输入空间,生成具有细粒度特征的热力图。将所述具有类别区分性的热力图与所述具有细粒度特征的热力图相融合,生成最终的热力图。本发明用于实现具有细粒度和类别区分性的CNN可视化效果。
-
公开(公告)号:CN116011469A
公开(公告)日:2023-04-25
申请号:CN202211519654.6
申请日:2022-11-30
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明属于机器翻译处理技术领域,特别涉及一种离线机器翻译程序加速处理装置、方法及系统,利用与用户端主机Thunderbolt接口连接的GPU扩展坞接收用户端主机传送的计算参数,并依据计算参数来执行离线机器翻译程序中的模型计算;并利用与用户端主机USB接口连接的USB存储设备来预置固化离线机器翻译程序、依赖类库和模型。本发明将机器翻译系统中的模型计算部分从CPU转移至外接的GPU设备,利用USB接口外接存储设备,将翻译程序依赖的模型、类库和执行步骤固化,能够实现整个离线机器翻译程序的高效、便捷部署安装,机器翻译执行和处理效率可以成倍的提升,且根据实际应用可适合扩展到其他需要大量计算的系统中,具有较好的应用前景。
-
公开(公告)号:CN115410556A
公开(公告)日:2022-11-29
申请号:CN202210976069.2
申请日:2022-08-15
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明提供一种元对抗学习提升多语言预训练与低资源语音识别的方法,采用CTC‑注意力联合的端到端语音识别网络架构,在端到端语音识别网络架构中的编码器的输出端添加语言识别器,在元学习外循环中利用所述语言识别器与更新的语音识别模型对抗,引导更新的语音识别模型产生与语言无关的表征,缩小不同语言在语义空间中的差距;所述语言识别器由浅层至深层依次包括第一Linear层、第一Relu层、第二Linear层、第二Relu层、第三Linear层和softmax层。本发明可以解决不同语言数据规模与难度差异大导致ASR模型容易对一些语言产生倾向性以及不容易学习多种语言之间的共享语义空间的问题。
-
公开(公告)号:CN111090981B
公开(公告)日:2022-04-15
申请号:CN201911241042.3
申请日:2019-12-06
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC分类号: G06F40/191 , G06F40/211 , G06N3/04
摘要: 本发明属于自然语言处理技术领域,公开一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统,该方法包括:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建;该系统包括:语料处理模块、网络结构选择模块及模型构建与优化模块。本发明解决了语音转写文本中,无法自动断句以及标点符号缺失的问题。
-
公开(公告)号:CN113505611A
公开(公告)日:2021-10-15
申请号:CN202110780410.2
申请日:2021-07-09
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明提供一种在生成对抗中获得更好的语音翻译模型的训练方法和系统。该方法包括收集训练数据,利用训练数据中的转录‑翻译数据对训练MT模型;利用收缩机制对ST模型的输入长度进行压缩,使得语音和文本的编码层输出长度近似相同,包括:先采用CTC损失帮助ST模型预测语音的转录,捕捉语音的声学信息;然后利用CTC存在的峰值现象去除ST模型编码层状态中的冗余信息;采用对抗器通过“最大最小”的方法,使ST模型的编码层输出分布拟合MT模型的编码层输出分布,帮助ST模型捕捉到更多的语义信息;以CTC损失作为附加损失,结合端到端ST模型的损失对整个语音翻译模型进行联合训练。本发明能提升语音翻译模型的识别性能,进而提高语音翻译效率和质量。
-
公开(公告)号:CN108769576B
公开(公告)日:2021-02-02
申请号:CN201810443112.2
申请日:2018-05-10
申请人: 郑州信大先进技术研究院 , 中国人民解放军战略支援部队信息工程大学
摘要: 本发明提供一种智能视频处理方法和系统,具体包括视频监控终端、多个远端机、多个近端机以及云端服务器,本发明从视频监控终端获取监控视频数据,将监控视频数据和当前位置信息、时间信息组合成多维视频帧保存在远端机中,同时从监控视频数据中提取出特征数据并与当前位置信息、时间信息组合成多维特征帧,将多维视频帧与多维特征帧关联并将多维特征帧发送到近端机;近端机将多维特征帧汇聚到云端服务器,以实现特定对象(人员、车辆)的追踪分析。本发明适用于已部署传统视频监控系统但智能化改造难度较大的场景,在不改变现有的视频监控系统部署架构的基础上,实现智能监控的功能,且有效降低了工程改造量和建设成本。
-
公开(公告)号:CN116229948A
公开(公告)日:2023-06-06
申请号:CN202211655769.8
申请日:2022-12-22
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明提供一种基于任务的多项式损失提升多语言元学习语音识别方法。该方法包括:步骤1:初始化语音识别模型,输入原始语音特征序列;步骤2:从多语言数据集中抽取任务Ti,将Ti分为支持集和查询集;步骤3:计算Ti的ASR损失,使用梯度下降得到在支持集上更新后的参数θi;步骤4:使用在支持集上更新后的参数θi在查询集上计算查询损失步骤5:根据Ti的计算得到Ti的多项式损失;步骤6:重复N次步骤2至步骤5,计算得到N个任务对应的多项式损失;步骤7:基于所有任务对应的多项式损失来更新语音识别模型参数θ;步骤8:重复步骤2至步骤7,直至更新后的语音识别模型fθ满足给定要求。
-
公开(公告)号:CN114464198A
公开(公告)日:2022-05-10
申请号:CN202111437237.2
申请日:2021-11-30
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
摘要: 本发明属于人工智能人声分离技术领域,特别涉及一种可视化人声分离系统、方法以及装置,该方法包括打开可视化人声分离系统,把要分离的音/视频文件导入系统中;把音/视频转换成和人声分离算法相匹配的音频格式;把要处理的音频文件进行逻辑切分,按时间先后顺序进行分句,最终形成每句话包含说话人名称、开始时间和结束时间的json文件;把分离后的结果在界面上进行展示,音频文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在结果展示界面进行每句话的播放和调整,实现精准人声分离;把分离好的人声分句,根据需求进行选中导出。本发明在人工智能人声分离算法基础上,进行界面可视化的手动调整,达到精准人声分离效果。
-
公开(公告)号:CN114171011A
公开(公告)日:2022-03-11
申请号:CN202111605503.8
申请日:2021-12-25
申请人: 中国人民解放军战略支援部队信息工程大学 , 郑州信大先进技术研究院
IPC分类号: G10L15/04 , G10L15/22 , G10L15/26 , G10L17/02 , G10L21/0272 , G10L21/055
摘要: 本发明属于铁路调度业务处理技术领域,特别涉及一种基于铁路调度单声道语音识别方法及系统,构建铁路调度人员声纹特征库并存储每个调度人员声纹特征;收集调度台与车站之间的调度指令录音数据,并对调度指令录音数据进行录音片段切割和分组规整,形成语音片段数据集一,且在每个录音片段均对应设置有ID;针对每个录音片段,将发声人员身份与声纹特征库中每个调度员身份进行关联,形成包含调度员身份信息的语音片段数据集二,通过文字转写形成包含对应录音片段转写文字信息的数据集三;根据上述两个数据集三合并获取语音片段数据集四,以实现铁路调度指令语音的听看识别,便于对铁路调度业务中调度员的监管,提升铁路运输服务质量及国民满意度。
-
-
-
-
-
-
-
-
-