端对端语音识别方法、电子装置及计算机可读存储介质

    公开(公告)号:CN109215662B

    公开(公告)日:2023-06-20

    申请号:CN201811088477.4

    申请日:2018-09-18

    摘要: 本发明涉及语音识别技术领域,公开了一种端对端语音识别方法,包括:获取包含多个说话人的第一混合语音信号以及标签序列作为训练样本;构建基于Encoder‑Decoder架构的神经网络模型;训练所述神经网络模型;获取待识别的包括多个说话人的第二混合语音信号;将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。本发明对于包含多个说话人同时发声形成的混合语音源输入,输出分别与每个说话人相对应的发音内容,而无需包含明显的语音分割阶段,从单声道混合语音中生成多个独立的输出,精简语音识别过程,减少计算量。本发明还公开了一种电子装置和计算机可读存储介质。

    语音模仿方法、终端设备及计算机可读存储介质

    公开(公告)号:CN109308903B

    公开(公告)日:2023-04-25

    申请号:CN201810868960.8

    申请日:2018-08-02

    摘要: 本发明适用于语音处理技术领域,提供了语音模仿方法、终端设备及计算机可读存储介质,包括:将获取到的原始语音数据通过预设的生成对抗网络GAN转换成包含原始语音数据中对话内容的第一梅尔谱图,再根据预设的自回归神经网络模型,将原始语音数据转换成包含原始语音数据的语言特征的第二梅尔谱图,最后根据第一梅尔谱图、第二梅尔谱图以及预设的模仿目标的梅尔谱图,生成与模仿目标具有相同语言特征的语音数据。通过生成对抗网络和自回归神经网络模型对原始语音数据进行处理,提高了语音模拟的真实度和清晰度,保证了在语音模拟过程中的原始性。

    情感识别模型的训练方法、情感识别方法、装置、设备及存储介质

    公开(公告)号:CN109817246B

    公开(公告)日:2023-04-18

    申请号:CN201910145605.2

    申请日:2019-02-27

    摘要: 本申请涉及智能决策领域,基于深度学习训练情感识别模型。具体公开了一种情感识别模型的训练方法、情感识别方法、装置、计算机设备及存储介质,该方法包括:获取用户的语音信息以及对应的数据标签;根据语音信息以及对应的数据标签构建样本数据;根据预设处理规则对样本数据中的语音信息进行预处理以得到对应的频谱向量;提取预设的循环神经网络,循环神经网络包括注意力机制,注意力机制用于加强语音信息中的部分区域;基于循环神经网络,根据语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型。该方法可以提高情感识别模型的可泛化性,提高模型识别的准确率。

    医学影像图片分析方法、装置、电子设备及可读存储介质

    公开(公告)号:CN111932534A

    公开(公告)日:2020-11-13

    申请号:CN202011003181.5

    申请日:2020-09-22

    IPC分类号: G06T7/00 G06N3/04 G06K9/62

    摘要: 本发明涉及人工智能,揭露一种医学影像图片分析方法,包括:利用预设部位疾病历史图片集训练预构建的深度学习网络模型得到疾病识别模型;根据疾病识别模型与预构建的初始诊断模型构建蒸馏损失函数;根据蒸馏损失函数对初始诊断模型进行蒸馏训练,得到第一诊断模型;根据预设的诊断目标对第一诊断模型进行训练及输出调整,得到目标诊断模型;当接收到待分析医学影像图片时,利用目标诊断模型对待分析医学影像图片进行分析,得到分析结果。本发明还涉及一种区块链技术,训练模型的数据可以存储在区块链中。本发明还提出一种医学影像图片分析装置、电子设备以及一种计算机可读存储介质。利用本发明可以降低医学影像图片分析的模型计算资源消耗。

    医疗数据处理方法、装置、设备及存储介质

    公开(公告)号:CN111931866A

    公开(公告)日:2020-11-13

    申请号:CN202010991493.5

    申请日:2020-09-21

    摘要: 本发明涉及互联网医疗技术领域,公开一种医疗数据处理方法、装置、设备及存储介质,该方法包括通过对待处理医疗数据中的图像数据进行图像特征优化获得目标图像数据对音频数据进行音频去噪,获得目标音频数据;分别对目标图像数据和目标音频数据进行特征提取,并根据提取的数据特征信息选取目标模糊聚类算法对待处理医疗数据进行特征提取和分类,获得分类结果。由于是对图像数据和音频数据分别进行针对性处理,然后根据获得的数据进行特征提取获得数据特征信息,再根据数据特征信息去选取目标模糊聚类算法进行医疗数据的特征提取和分类,相比于笼统的根据聚类算法对医疗数据进行分类的方式,能够保证医疗数据分类的合理性,以及分类结果的准确度。

    基于区块链的医疗数据调用方法、装置、电子设备及介质

    公开(公告)号:CN111914029A

    公开(公告)日:2020-11-10

    申请号:CN202010784575.2

    申请日:2020-08-06

    IPC分类号: G06F16/27 G06F21/60 G06F21/62

    摘要: 本发明涉及区块链技术,揭露一种基于区块链的医疗数据调用方法,包括:获取原始医疗数据并进行签名验证;当所述原始医疗数据通过签名验证时,对所述原始医疗数据进行加密处理,得到加密医疗数据和所述加密医疗数据对应的解密私钥;按照所述加密医疗数据的信息特征将所述加密医疗数据和所述解密私钥分别存储在区块链的不同节点中;在接收到数据调用请求时,对所述数据调用请求进行权限验证,根据权限验证结果调用所述解密私钥;利用所述解密私钥对所述加密医疗数据解密,将解密后的所述加密医疗数据推送给数据调用请求的发送者。本发明还揭露一种基于区块链的医疗数据调用装置、电子设备及存储介质。本发明可以提高医疗数据存储过程中的安全性。

    基于循环神经网络和声学特征的说话人分离方法及装置

    公开(公告)号:CN110444223A

    公开(公告)日:2019-11-12

    申请号:CN201910561692.X

    申请日:2019-06-26

    发明人: 王健宗 贾雪丽

    摘要: 本发明公开了基于循环神经网络和声学特征的说话人分离方法及装置。该方法包括通过语音识别获取待识别语音数据的词向量集合,并识别获取待识别语音数据的MFCC特征向量集合,将其进行全连接,以得到融合后特征向量;将融合后特征向量进行编码得到编码结果;将编码结果进行解码得到与融合后特征向量对应的分割结果;将分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果;将说话人识别结果通过聚类,得到说话人分类结果;以及将说话人分类结果发送至待识别语音数据对应的上传端。该方法实现了融合了词汇和声学特征信息的序列到序列模型去进行说话人的分离,可以捕捉到包括说话人转换点前后的编码信息。

    图像生成方法、装置、计算机设备及存储介质

    公开(公告)号:CN110288668A

    公开(公告)日:2019-09-27

    申请号:CN201910420187.3

    申请日:2019-05-20

    IPC分类号: G06T11/00 G06N3/08

    摘要: 本申请涉及图像检测,具体利用图像生成模型生成不同的模态图像,具体提供了一种图像生成方法、装置、设备及存储介质,该方法包括:获取目标图像以及对应的第一模态图像;将第一模态图像输入至预先训练的图像生成模型,以使图像生成模型的第一生成器根据第一模态图像生成第二模态图像以及将生成的第二模态图像输入至图像生成模型的第二生成器使得第二生成器根据生成的第二模态图像生成第三模态图像;采集第二模态图像并根据采集的第二模态图像验证生成的第二模态图像;若生成的第二模态图像验证通过,保存所述第一模态图像、生成的第二模态图像和第三模态图像。提高了不同模态图像的生成效率和准确率。

    语音处理方法、装置、计算机设备及存储介质

    公开(公告)号:CN110232916A

    公开(公告)日:2019-09-13

    申请号:CN201910390372.2

    申请日:2019-05-10

    发明人: 王健宗 贾雪丽

    IPC分类号: G10L15/22 G10L15/28

    摘要: 本发明涉及语音处理领域,公开了一种语音处理方法、装置、计算机设备及存储介质。其方法包括:通过音频缓冲器缓存实时环境声音信号;检测所述实时环境声音信号是否包含指定关键词;若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;将所述用户口语指令转化为机器逻辑指令;将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。本发明提供的语音处理方法,可以克服现有技术中唤醒和语音识别不同步,实时对用户的语音指令进行识别,提高了用户体验。

    情感极性分析方法及相关装置
    10.
    发明公开

    公开(公告)号:CN110083829A

    公开(公告)日:2019-08-02

    申请号:CN201910267765.4

    申请日:2019-04-03

    发明人: 王健宗 贾雪丽

    IPC分类号: G06F17/27 G06N3/02

    摘要: 本申请公开了一种情感极性分析方法及相关装置,应用于电子设备,包括:在检测到针对目标语句段落的情感极性分析操作时,获取所述目标语句段落的多个词汇;将所述多个词汇输入第一神经网络模型,得到所述多个词汇对应的第一词向量集合,所述第一词向量集合中的每个词向量用于指示对应词汇的上下文信息;将所述第一词向量集合中的每个词向量输入第二神经网络模型,得到和所述第一词向量集合关联的输出标签;根据所述输出标签确定所述目标语句段落的情感极性。本发明实施例利于准确迅速地判断出目标语句段落所表达的情感极性。