-
公开(公告)号:CN116416967B
公开(公告)日:2024-09-24
申请号:CN202111651840.0
申请日:2021-12-30
摘要: 本发明公开一种通过迁移学习提升重庆方言语音识别的方法,步骤为:1)获取语音数据;2)得到语音频谱图;3)对语音频谱图向量化,得到向量V;4)获取transformer模型的输入X;5)将参数Q、参数K、参数V输入到transformer模型的编码器中,得到编码器输出Y1和编码器输出Y2;6)将编码器输出Y1和编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本;8)确定拼音BERT模型的输入x;9)将输入x输入到拼音BERT模型中,得到语音识别结果。本发明通过pipeline设计模式,将ASR中的声学模型,语言模型独立开,增强了ASR模型选择的多样性。
-
公开(公告)号:CN116416967A
公开(公告)日:2023-07-11
申请号:CN202111651840.0
申请日:2021-12-30
摘要: 本发明公开一种通过迁移学习提升重庆方言语音识别的方法,步骤为:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)利用VGG网络对语音频谱图向量化,得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1和编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本;8)确定拼音BERT模型的输入x;9)将输入x输入到拼音BERT模型中,得到语音识别结果。本发明能更全面的捕捉到语义层面信息,并通过pipeline设计模式,将ASR中的声学模型,语言模型独立开,增强了ASR模型选择的多样性。
-
公开(公告)号:CN115691481A
公开(公告)日:2023-02-03
申请号:CN202211071402.1
申请日:2022-09-02
摘要: 本发明公开一种基于门控卷积的老年方言语音识别方法,包括以下步骤:1)获取使用者录制的至少两个音频文件;2)分别对每个音频文件进行处理,得到频谱向量Vr和频域特征Fbankr;3)将频谱向量Vr和频域特征Fbankr作为输入数据输入到Gate CNN网络中,得到第r个音频文件的语音识别结果hr;4)重复步骤3),从而获取R个音频文件的语音识别结果;5)对R个音频文件的语音识别结果进行处理,得到最终的语音识别结果。本发明利用Gate CNN做声学模型,即保留了CNN的特征处理能力,又保留了模型的时许特性,同时结构简单,参数可控。
-
公开(公告)号:CN111860103A
公开(公告)日:2020-10-30
申请号:CN202010390890.7
申请日:2020-05-11
摘要: 本发明公开一种基于Tensorflow目标检测的动作识别方法,主要步骤为:1)获取含有人体姿态和目标物体的视频流,并分解为若干帧图像;2)构造卷积神经网络,并训练得到目标物体识别模型;3)利用目标物体识别模型框选出每帧图像中的目标物体,并为矩形框打上类别标签;4)基于矩形框的左上角归一化坐标(xmin_nor,ymin_nor)、右下角归一化坐标值(xmax_nor,ymax_nor)确定目标物体坐标;5)对目标物体坐标进行处理;6)建立动作识别模型;7)将处理后的矩形框坐标输入到动作识别模型中,对人体姿态进行识别。本发明基于对坐标数据进行欧氏距离、相对位置提取的方法,实现了动作识别模型的建立,通过设置阈值和时序条件分析多个视频帧数据快速准确完成了动作识别。
-
公开(公告)号:CN111652076A
公开(公告)日:2020-09-11
申请号:CN202010390863.X
申请日:2020-05-11
摘要: 本发明公开一种面向AD量表理解能力测试的姿态自动识别系统,主要包括视频流获取模块、人体关键点二维坐标提取模块、目标物体顶点二维坐标提取模块、预处理模块、姿态识别模块和数据库。本发明对AD量表中的指定动作完成情况建立了评价数学模型,基于OpenPose提取人体骨架的坐标点,配合使用了基于图像形态学处理的纸张定位算法,完成了受试者动作完成情况的评估。
-
公开(公告)号:CN111651999A
公开(公告)日:2020-09-11
申请号:CN202010390849.X
申请日:2020-05-11
IPC分类号: G06F40/30 , G06F40/216 , G06F40/289 , G06F40/253
摘要: 本发明公开一种面向AD量表书写能力检测的文本语义分析自动评价系统,主要包括待评估语料输入模块、训练语料获取模块、语料预处理模块、语法完整性判断模块、语义通顺度分析模块和数据库;本发明结合受试者所写中文语句的语法成分完整性和语义通顺度,判断语句是否可理解,进而判断受试者是否具有基本的书写能力,有效提高了中文语句可理解度的判断效率和准确度。
-
公开(公告)号:CN115687939B
公开(公告)日:2024-09-24
申请号:CN202211071421.4
申请日:2022-09-02
IPC分类号: G06F18/22 , G06F18/214 , G06F18/2411 , G06F40/284 , G06F40/295
摘要: 本发明公开一种基于多任务学习的Mask文本匹配方法及介质。方法步骤包括:1)获取至少两个待匹配文本;2)对所述待匹配文本进行特征提取,得到每个待匹配文本的文本字词特征;3)建立基于BERT的文本匹配模型;4)将所有待匹配文本的文本字词特征输入到文本匹配模型,获得不同待匹配文本的匹配结果。介质包括计算机程序。本发明提出了结合数据特点构建Mask矩阵简化模型的思路,在简化模型的同时也能放大待匹配文本之间的差异,使最终模型训练的泛化能力增强。
-
公开(公告)号:CN116416968A
公开(公告)日:2023-07-11
申请号:CN202111656134.5
申请日:2021-12-30
摘要: 本发明公开一种由双编码器组成的transformer的重庆方言语音识别方法,包括以下步骤:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1输入到Gate CNN网络中,得到语音识别文本概率分布p1;将编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本概率分布p2;8)计算得到语音识别文本P。本发明设计了两个不同的解码器分别对两个dropout输出做解码,进一步增加了整个解码结构的鲁棒性。
-
公开(公告)号:CN111652287A
公开(公告)日:2020-09-11
申请号:CN202010390856.X
申请日:2020-05-11
摘要: 本发明公开了基于卷积深度神经网络的AD量表手绘交叉五边形分类方法,步骤为:1)获取若干带有手绘交叉五边形的图像,并进行预处理;2)对预处理后的图像进行增强,并打上评估标签;以增强后的图像和评估标签建立训练数据集;3)建立卷积深度神经网络;4)将训练数据集输入到卷积深度神经网络中,利用随机梯度下降算法对卷积深度神经网络进行训练,得到手绘交叉五边形评估模型;5)将待分类图像输入到手绘交叉五边形评估模型中,获取待分类图像的评估标签,完成手绘交叉五边形的评估。本发明提出一种基于卷积深度神经网络的AD量表手绘交叉五边形分类方法,有效提高了卷积深度神经网络评分的准确率。
-
公开(公告)号:CN116306592A
公开(公告)日:2023-06-23
申请号:CN202211492719.2
申请日:2022-11-25
IPC分类号: G06F40/232 , G10L15/26 , G06N3/047 , G06N3/048 , G06N3/0442 , G06N3/08 , G16H50/30
摘要: 本发明公开一种基于阅读理解的老年痴呆量表纠错方法、系统及介质,方法步骤包括:1)获取测试者关于老年痴呆量表的音频,并将测试者音频转录为待纠错文本;2)检索出与待纠错文本相匹配的神经心理量表文本,记为候选字符;3)将与待纠错文本和匹配的候选字符组合成文本对,并输入到BERT预训练模型中,得到待纠错文本Text中每个字符被替换为神经心理量表中第j个字符的条件概率;4)选择从候选字符列表中选择概率最大的字符作为字符的最终输出。系统包括:音频获取及转换模块、候选字符匹配模块、BERT处理模块、纠错模块;本发明结合神经心理量表的语言特点,提出了专有的纠错数据生成方法,弥补了训练数据欠缺的问题。
-
-
-
-
-
-
-
-
-