-
公开(公告)号:CN111341319B
公开(公告)日:2023-05-16
申请号:CN201811559040.4
申请日:2018-12-19
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于局部纹理特征的音频场景识别方法,所述方法包括:将待识别的音频信号进行预处理后逐帧提取Mel‑fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。
-
公开(公告)号:CN113326689A
公开(公告)日:2021-08-31
申请号:CN202010128327.2
申请日:2020-02-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/205 , G06F40/211 , G06N20/00 , G06K9/62
Abstract: 本发明属于数据通信和数据处理技术领域,具体涉及一种基于深度强化学习模型的数据清洗方法,该方法包括:获取待清洗的带标签的数据集;采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。
-
公开(公告)号:CN112331181A
公开(公告)日:2021-02-05
申请号:CN201910694870.6
申请日:2019-07-30
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于目标语音提取和自适应技术领域,具体涉及一种基于多说话人条件下目标说话人语音提取方法,该方法具体包括:实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;基于该目标说话人的语音频谱,获取目标说话人的语音。
-
公开(公告)号:CN110119648A
公开(公告)日:2019-08-13
申请号:CN201810111564.0
申请日:2018-02-05
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明公开了一种基于光学字符识别的传真图像分类方法,所述方法包括:步骤1)对扫描得到的传真图像进行噪声消除;步骤2)对噪声消除后的传真图像进行二值化处理;步骤3)对步骤2)得到的二值化图像进行仿射变换校准文本;步骤4)利用OCR方法对步骤3)处理后的传真图像进行识别,得到编码为UTF-8的输出字符串和转写置信度;步骤5)对字符串进行关键词正则匹配,得到传真图像的分类。本发明的方法利用频谱噪声消除和灰度图像二值化的预处理,在满足实时性要求的前提下提升了电子扫描得到的传真图像的质量;使传真图像能够使用基于OCR的分类方法,由此实现了传真图像的自动化分类。
-
公开(公告)号:CN113420112A
公开(公告)日:2021-09-21
申请号:CN202110685518.3
申请日:2021-06-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F40/289 , G06K9/62
Abstract: 本发明涉及一种基于无监督学习的新闻实体分析方法及装置。方法包括:对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。本申请将分布式的思想引入新闻实体的处理当中,通过新闻实体所处位置的上下文来得到实体的分布式表示,通过对实体的聚类分析来得到实体的聚类结果。
-
公开(公告)号:CN113420112B
公开(公告)日:2025-02-18
申请号:CN202110685518.3
申请日:2021-06-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/334 , G06F40/289 , G06F18/214 , G06F18/23213
Abstract: 本发明涉及一种基于无监督学习的新闻实体分析方法及装置。方法包括:对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。本申请将分布式的思想引入新闻实体的处理当中,通过新闻实体所处位置的上下文来得到实体的分布式表示,通过对实体的聚类分析来得到实体的聚类结果。
-
公开(公告)号:CN112331181B
公开(公告)日:2024-07-05
申请号:CN201910694870.6
申请日:2019-07-30
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于目标语音提取和自适应技术领域,具体涉及一种基于多说话人条件下目标说话人语音提取方法,该方法具体包括:实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;基于该目标说话人的语音频谱,获取目标说话人的语音。
-
公开(公告)号:CN113326689B
公开(公告)日:2023-08-18
申请号:CN202010128327.2
申请日:2020-02-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/205 , G06F40/211 , G06F18/214 , G06F18/2415 , G06N3/045 , G06N3/092
Abstract: 本发明属于数据通信和数据处理技术领域,具体涉及一种基于深度强化学习模型的数据清洗方法,该方法包括:获取待清洗的带标签的数据集;采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。
-
公开(公告)号:CN111354347B
公开(公告)日:2023-08-15
申请号:CN201811571564.5
申请日:2018-12-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/08
Abstract: 本发明提出了一种基于自适应热词权重的语音识别方法及系统,所述方法包括:生成热词网络并和静态解码网络一起加载到语音识别解码器中;将待识别的语音信号同步地在静态解码网络和热词网络上进行令牌传递,自适应地计算热词权重,并对静态解码网络上令牌的分数重新打分;输出解码结果。本发明的基于自适应热词权重的语音识别方法在一遍解码的过程中就能提升热词召回率,不影响解码的速度,并且自适应地计算热词权重既能有效地提高热词的召回率,不影响原先的解码速度,又能提高系统的鲁棒性。
-
公开(公告)号:CN112712096A
公开(公告)日:2021-04-27
申请号:CN201911022350.7
申请日:2019-10-25
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了基于深度递归非负矩阵分解的音频场景分类方法及系统,该方法包括:将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。本发明的方法将深度NMF用于音频场景分类,通过探索相邻帧之间NMF系数的递归关系,降低模型复杂度,提高泛化能力。
-
-
-
-
-
-
-
-
-