-
公开(公告)号:CN115563277A
公开(公告)日:2023-01-03
申请号:CN202211178020.9
申请日:2022-09-23
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种意图识别方法、装置、电子设备及存储介质,该方法包括:获取待识别文本;基于语言模型,提取所述待识别文本的文本意图特征;基于意图识别分支,确定所述文本意图特征对应的意图识别结果;其中,所述语言模型是结合掩膜预测分支进行掩膜预测训练,并结合所述意图识别分支进行意图识别训练得到的;所述掩膜预测训练是以携带掩膜的第一样本文本为样本、以预测所述第一样本文本中的掩膜部分为任务执行的,所述意图识别训练是以携带意图标签的第二样本文本为样本、以识别所述第二样本文本的意图为任务执行的。本发明提供的方法、装置、电子设备和存储介质,极大程度提升了意图识别的自由度,提高了意图识别的泛化能力。
-
公开(公告)号:CN115394294A
公开(公告)日:2022-11-25
申请号:CN202210982703.3
申请日:2022-08-16
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例提供了一种语音识别方法、装置、设备及存储介质,所述方法包括:获取待识别语音数据和目标面部图像数据;其中,所述待识别语音数据包括目标用户的语音数据,所述目标面部图像数据至少包括所述目标用户的唇部区域之外的面部图像数据;至少根据所述目标面部图像数据,对所述待识别语音数据进行识别,得到对所述目标用户的语音数据的识别结果。本申请实施例提供的方法能够在用户唇部被遮挡的情况下,准确识别用户的语音。
-
公开(公告)号:CN115359783A
公开(公告)日:2022-11-18
申请号:CN202210855299.3
申请日:2022-07-19
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种音素识别方法、装置、电子设备和存储介质,所述方法包括:确定待识别语音;将待识别语音输入至音素识别模型,得到音素识别模型输出的音素识别结果;音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对第二识别模型下的音素节点进行筛选得到的,第二识别模型包括多个语种分别对应的音素节点。本发明提供的音素识别方法、装置、电子设备和存储介质,不仅减小了音素识别模型的规模,而且音素识别模型能够准确对不同语种的音素进行区分。
-
公开(公告)号:CN114944149A
公开(公告)日:2022-08-26
申请号:CN202210400143.6
申请日:2022-04-15
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、语音识别设备及计算机可读存储介质。该方法包括:基于待识别语音进行语音特征提取,得到语音特征,并基于参考文本进行文本特征提取,得到参考文本特征,其中,参考文本对参考语音识别得到,参考文本的语境与待识别语音的语境相关,参考语音的发言时间先于待识别语音的发言时间;基于参考文本特征和语音特征,识别得到待识别语音的识别文本。通过上述方式,能够提高识别文本的准确度。
-
公开(公告)号:CN114520001A
公开(公告)日:2022-05-20
申请号:CN202210281930.3
申请日:2022-03-22
Applicant: 科大讯飞股份有限公司
IPC: G10L15/197 , G10L15/18 , G10L15/26 , G10L15/30 , G10L15/06
Abstract: 本发明提供了一种语音识别方法、装置、设备及存储介质,其中,方法包括:获取待识别语音,基于预先训练得到的语音识别模型对待识别语音进行识别,其中,语音识别模型通过两个阶段的训练得到,第一阶段以使训练语音的识别结果与训练语音标注的文本一致为目标进行训练,第二阶段以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进行训练。经由本发明提供的语音识别方法可获得用户可接受度较高的语音识别结果。
-
公开(公告)号:CN111131616B
公开(公告)日:2022-05-17
申请号:CN201911383922.4
申请日:2019-12-28
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , H04M1/72433 , H04M1/72457
Abstract: 本申请实施例公开了一种基于智能终端的音频共享方法及相关装置,所述方法包括:获取预设场景的声源位置;依据所述声源位置与智能终端之间的位置关系,依据所述位置关系获取所述声源位置与智能终端之间的距离,依据所述位置关系和/或所述距离从所述预设场景的智能终端内选择共享智能终端;获取所述共享智能终端采集的音频数据,将所述音频数据确定为所述预设场景的共享音频。本申请提供的技术方案具有提高音频数量的优点。
-
公开(公告)号:CN113345473A
公开(公告)日:2021-09-03
申请号:CN202110703540.6
申请日:2021-06-24
Applicant: 科大讯飞股份有限公司
IPC: G10L25/87 , G10L15/18 , G10L15/187 , G10L15/26
Abstract: 本发明提供一种语音端点检测方法、装置、电子设备和存储介质,其中方法包括:获取语音数据流的实时转写文本,以及语音数据流的语音段;基于实时转写文本的语义特征,以及语音段的语音特征,对语音段进行静音检测,得到语音段的静音检测序列;基于语音段的静音检测序列,对语音数据流进行语音端点检测。本发明提供的方法、装置、电子设备和存储介质,为静音检测提供语义特征作为参考的同时,兼顾了语音端点检测的运行效率,有助于实时的、低功耗的语音端点检测的实现。静音检测结合了语音特征和语义特征,能够大大提高语音端点检测的抗干扰能力,过滤无具体语义或者语义无关的语音片段,避免误触发导致人机交互过程提前中断的问题。
-
公开(公告)号:CN113345423A
公开(公告)日:2021-09-03
申请号:CN202110705850.1
申请日:2021-06-24
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音端点检测方法、装置、电子设备和存储介质,其中方法包括:获取语音数据流中各语音帧的语音特征和声学状态后验特征;对各语音帧的语音特征和声学状态后验特征进行融合,得到各语音帧的语义融合特征;基于各语音帧的语义融合特征,对所述语音数据流进行语音端点检测。本发明提供的方法、装置、电子设备和存储介质,通过融合各语音帧的语音特征和声学状态后验特征进行语音端点检测,能够提高语音端点检测的抗干扰能力,过滤无具体语义或者语义无关的语音片段,避免误触发导致人机交互过程提前中断的问题。其中,声学状态后验特征中语义信息的应用,极大减低了计算量,保证了端点检测的实时性和低延迟性的需求。
-
公开(公告)号:CN112614514A
公开(公告)日:2021-04-06
申请号:CN202011479131.4
申请日:2020-12-15
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种有效语音片段检测方法、相关设备及可读存储介质,该方案中,针对待检测的音频信号,在进行语音片段检测,得到至少一个语音片段之后,针对每个语音片段,至少基于该语音片段对应的文本内容,对该语音片段进行有效性检测,从而判断该语音片段是否为有效语音片段。由于该方案中基于语音片段对应的文本内容对语音片段的有效性进行了进一步检测,相对于将检测出的语音片段直接作为有效语音片段,提升了有效语音片段的检测准确率。
-
公开(公告)号:CN111832248A
公开(公告)日:2020-10-27
申请号:CN202010731385.4
申请日:2020-07-27
Applicant: 科大讯飞股份有限公司
IPC: G06F40/103 , G06F40/253 , G06F40/289 , G06F40/30
Abstract: 本发明实施例提供一种文本规整方法、装置、电子设备和存储介质,其中方法包括:确定待规整文本;将待规整文本输入至文本规整模型,得到文本规整模型输出的待规整文本对应的已规整文本;其中,文本规整模型是基于样本待规整文本、样本已规整文本,以及样本待规整文本中每一分词的样本编辑类型训练得到的;文本规整模型用于确定所述待规整文本中每一分词的编辑类型,并基于所述待规整文本中是否包含编辑类型为插入类型的插入分词确定所述待规整文本的规整方式,基于所述规整方式对待规整文本进行规整。本发明实施例提供的方法、装置、电子设备和存储介质,提升了文本规整的准确性和文本规整的效率。
-
-
-
-
-
-
-
-
-