-
公开(公告)号:CN116306592A
公开(公告)日:2023-06-23
申请号:CN202211492719.2
申请日:2022-11-25
IPC分类号: G06F40/232 , G10L15/26 , G06N3/047 , G06N3/048 , G06N3/0442 , G06N3/08 , G16H50/30
摘要: 本发明公开一种基于阅读理解的老年痴呆量表纠错方法、系统及介质,方法步骤包括:1)获取测试者关于老年痴呆量表的音频,并将测试者音频转录为待纠错文本;2)检索出与待纠错文本相匹配的神经心理量表文本,记为候选字符;3)将与待纠错文本和匹配的候选字符组合成文本对,并输入到BERT预训练模型中,得到待纠错文本Text中每个字符被替换为神经心理量表中第j个字符的条件概率;4)选择从候选字符列表中选择概率最大的字符作为字符的最终输出。系统包括:音频获取及转换模块、候选字符匹配模块、BERT处理模块、纠错模块;本发明结合神经心理量表的语言特点,提出了专有的纠错数据生成方法,弥补了训练数据欠缺的问题。
-
公开(公告)号:CN115687939B
公开(公告)日:2024-09-24
申请号:CN202211071421.4
申请日:2022-09-02
IPC分类号: G06F18/22 , G06F18/214 , G06F18/2411 , G06F40/284 , G06F40/295
摘要: 本发明公开一种基于多任务学习的Mask文本匹配方法及介质。方法步骤包括:1)获取至少两个待匹配文本;2)对所述待匹配文本进行特征提取,得到每个待匹配文本的文本字词特征;3)建立基于BERT的文本匹配模型;4)将所有待匹配文本的文本字词特征输入到文本匹配模型,获得不同待匹配文本的匹配结果。介质包括计算机程序。本发明提出了结合数据特点构建Mask矩阵简化模型的思路,在简化模型的同时也能放大待匹配文本之间的差异,使最终模型训练的泛化能力增强。
-
公开(公告)号:CN116416968A
公开(公告)日:2023-07-11
申请号:CN202111656134.5
申请日:2021-12-30
摘要: 本发明公开一种由双编码器组成的transformer的重庆方言语音识别方法,包括以下步骤:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1输入到Gate CNN网络中,得到语音识别文本概率分布p1;将编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本概率分布p2;8)计算得到语音识别文本P。本发明设计了两个不同的解码器分别对两个dropout输出做解码,进一步增加了整个解码结构的鲁棒性。
-
公开(公告)号:CN116416967B
公开(公告)日:2024-09-24
申请号:CN202111651840.0
申请日:2021-12-30
摘要: 本发明公开一种通过迁移学习提升重庆方言语音识别的方法,步骤为:1)获取语音数据;2)得到语音频谱图;3)对语音频谱图向量化,得到向量V;4)获取transformer模型的输入X;5)将参数Q、参数K、参数V输入到transformer模型的编码器中,得到编码器输出Y1和编码器输出Y2;6)将编码器输出Y1和编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本;8)确定拼音BERT模型的输入x;9)将输入x输入到拼音BERT模型中,得到语音识别结果。本发明通过pipeline设计模式,将ASR中的声学模型,语言模型独立开,增强了ASR模型选择的多样性。
-
公开(公告)号:CN116416967A
公开(公告)日:2023-07-11
申请号:CN202111651840.0
申请日:2021-12-30
摘要: 本发明公开一种通过迁移学习提升重庆方言语音识别的方法,步骤为:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)利用VGG网络对语音频谱图向量化,得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1和编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本;8)确定拼音BERT模型的输入x;9)将输入x输入到拼音BERT模型中,得到语音识别结果。本发明能更全面的捕捉到语义层面信息,并通过pipeline设计模式,将ASR中的声学模型,语言模型独立开,增强了ASR模型选择的多样性。
-
公开(公告)号:CN115691481A
公开(公告)日:2023-02-03
申请号:CN202211071402.1
申请日:2022-09-02
摘要: 本发明公开一种基于门控卷积的老年方言语音识别方法,包括以下步骤:1)获取使用者录制的至少两个音频文件;2)分别对每个音频文件进行处理,得到频谱向量Vr和频域特征Fbankr;3)将频谱向量Vr和频域特征Fbankr作为输入数据输入到Gate CNN网络中,得到第r个音频文件的语音识别结果hr;4)重复步骤3),从而获取R个音频文件的语音识别结果;5)对R个音频文件的语音识别结果进行处理,得到最终的语音识别结果。本发明利用Gate CNN做声学模型,即保留了CNN的特征处理能力,又保留了模型的时许特性,同时结构简单,参数可控。
-
公开(公告)号:CN116416968B
公开(公告)日:2024-09-24
申请号:CN202111656134.5
申请日:2021-12-30
摘要: 本发明公开一种由双编码器组成的transformer的重庆方言语音识别方法,包括以下步骤:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1输入到Gate CNN网络中,得到语音识别文本概率分布p1;将编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本概率分布p2;8)计算得到语音识别文本P。本发明设计了两个不同的解码器分别对两个dropout输出做解码,进一步增加了整个解码结构的鲁棒性。
-
公开(公告)号:CN116525045A
公开(公告)日:2023-08-01
申请号:CN202211492716.9
申请日:2022-11-25
IPC分类号: G16H10/20 , G06F40/30 , G06F40/295 , G06F40/211
摘要: 本发明公开一种基于语法树的神经心理量表答案筛选方法、系统及介质,方法步骤包括:1)获取测试者的音频,并将音频转录为心理量表文本;2)对标注有词边界的词序列进行依存句法分析,得到文本特征;3)对文本特征进行中心词提取,得到心理量表文本的中心词;4)对心理量表文本的中心词进行分析,得到语义角色识别结果;5)判断所述语义角色识别结果中是否包含MMSE量表中临床总结的语义角色,若是,则得到心理量表答案。系统包括音频获取及转换模块、分词模块、词性标注模块、实体识别模块、依存句法分析模块、中心词提取及分析模块、答案输出模块;本发明可以准确提取出测试者的真实意图,提高了人工智能技术应用在神经心理量表中的准确率。
-
公开(公告)号:CN115687939A
公开(公告)日:2023-02-03
申请号:CN202211071421.4
申请日:2022-09-02
IPC分类号: G06F18/22 , G06F18/214 , G06F18/2411 , G06F40/284 , G06F40/295
摘要: 本发明公开一种基于多任务学习的Mask文本匹配方法及介质。方法步骤包括:1)获取至少两个待匹配文本;2)对所述待匹配文本进行特征提取,得到每个待匹配文本的文本字词特征;3)建立基于BERT的文本匹配模型;4)将所有待匹配文本的文本字词特征输入到文本匹配模型,获得不同待匹配文本的匹配结果。介质包括计算机程序。本发明提出了结合数据特点构建Mask矩阵简化模型的思路,在简化模型的同时也能放大待匹配文本之间的差异,使最终模型训练的泛化能力增强。
-
-
-
-
-
-
-
-