-
公开(公告)号:CN112686018B
公开(公告)日:2024-08-23
申请号:CN202011545165.9
申请日:2020-12-23
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
IPC: G06F40/205 , G10L15/02 , G10L15/26
Abstract: 本申请提供了一种文本分割方法、装置、设备及存储介质,其中,方法包括:获取目标说话人的目标语音的识别文本,作为待分割的目标文本;根据目标语音和目标文本,获取目标说话人的语音停顿特征,其中,目标说话人的语音停顿特征能够反映目标说话人的韵律变化情况;根据目标说话人的语音停顿特征,对目标文本进行分割。经由本申请提供的文本分割方法可将目标文本分割为更符合用户阅读习惯的文本片段,另外,由于目标说话人的语音停顿特征能够反映目标说话人的韵律变化情况,因此,以目标说话人的语音停顿特征为依据对目标文本进行分割,能够获得与目标说话人语音停顿保持一致性的文本分割结果。
-
公开(公告)号:CN112214965B
公开(公告)日:2024-07-09
申请号:CN202011134242.1
申请日:2020-10-21
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
IPC: G06F40/109 , G06F40/126 , G06F40/151 , G06F40/289 , G06F40/30 , G06F18/22
Abstract: 本发明实施例提供一种大小写规整方法和装置,其中方法包括:将待规整文本输入至大小写规整模型,得到大小写规整模型输出的待规整文本中每一分词的大小写格式类型;基于每一分词的大小写格式类型,对待规整文本进行规整,得到待规整文本对应的已规整文本;其中,大小写规整模型是基于样本待规整文本,以及样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;大小写规整模型用于确定待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。本发明实施例提供的大小写规整方法和装置,扩大了大小写规整方法的适用范围,并且提高了大小写规整的准确性。
-
公开(公告)号:CN113345473B
公开(公告)日:2024-02-13
申请号:CN202110703540.6
申请日:2021-06-24
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
IPC: G10L25/87 , G10L15/18 , G10L15/187 , G10L15/26
Abstract: 本发明提供一种语音端点检测方法、装置、电子设备和存储介质,其中方法包括:获取语音数据流的实时转写文本,以及语音数据流的语音段;基于实时转写文本的语义特征,以及语音段的语音特征,对语音段进行静音检测,得到语音段的静音检测序列;基于语音段的静音检测序列,对语音数据流进行语音端点检测。本发明提供的方法、装置、电子设备和存储介质,为静音检测提供语义特征作为参考的同时,兼顾了语音端点检测的运行效率,有助于实时的、低功耗的语音端点检测的实现。静音检测结合了语音特征和语义特征,能够大大提高语音端点检测的抗干扰能力,过滤无具体语义或者语义无关的语音片段,避免误触发导致人机交互过程提前中断的问
-
公开(公告)号:CN113345423B
公开(公告)日:2024-02-13
申请号:CN202110705850.1
申请日:2021-06-24
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本发明提供一种语音端点检测方法、装置、电子设备和存储介质,其中方法包括:获取语音数据流中各语音帧的语音特征和声学状态后验特征;对各语音帧的语音特征和声学状态后验特征进行融合,得到各语音帧的语义融合特征;基于各语音帧的语义融合特征,对所述语音数据流进行语音端点检测。本发明提供的方法、装置、电子设备和存储介质,通过融合各语音帧的语音特征和声学状态后验特征进行语音端点检测,能够提高语音端点检测的抗干扰能力,过滤无具体语义或者语义无关的语音片段,避免误触发导致人(56)对比文件黄健;邓玫玲.基于LSTM自动编码机的短文本聚类方法.计算技术与自动化.2017,(第03期),全文.
-
公开(公告)号:CN113314123B
公开(公告)日:2024-05-31
申请号:CN202110390273.1
申请日:2021-04-12
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音处理方法、电子设备及存储装置。该方法包括:采集第一语音数据;对第一语音数据进行分类,得到第一语音数据中至少部分帧语音数据所属的类别;基于至少部分帧语音数据所属的类别,得到第一语音数据的类别;基于第一语音数据,执行与类别对应的操作。上述方案,录音设备能够基于语音数据进行更智能、灵活的操作。
-
公开(公告)号:CN112599118B
公开(公告)日:2024-02-13
申请号:CN202011604891.3
申请日:2020-12-30
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本发明实施例提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别的语音数据;基于经训练的语音识别模型,确定语音数据的语音识别结果;其中,语音识别模型用于将所述语音数据的语音特征与通用发音偏差特征集进行注意力交互,或,将所述语音数据的语音特征分别与所述通用发音偏差特征集和通用说话人声纹特征集进行注意力交互,得到语音数据的说话人特征,并基于语音数据的语音特征和说话人特征,对语音数据进行语音识别。本发明实施例提供的语音识别方法、装置、电子设备和存储介质,提高了说话人自适应的实时性和效果,有助于提高多人会话场景下的语音识别准确性。
-
公开(公告)号:CN113793600B
公开(公告)日:2023-12-01
申请号:CN202111086713.0
申请日:2021-09-16
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音识别方法、装置、设备及存储介质,获得当前时刻各个可能的解码结果在多个领域中的每一个领域的语言分数,以当前时刻各个可能的解码结果的声学分数为基准,确定各个领域的语言分数的权重,然后根据当前时刻各个可能的解码结果在每一领域的语言分数的加权求和结果,以及当前时刻各个可能的解码结果的声学分数,确定当前时刻的解码结果。由于在解码过程中考虑了当前时刻各个可能的解码结果在每一个领域的语言分数,且对不同领域的语言分数赋予了不同的权重,实现了领域语言模型的自适应选择,从而提高语音识别方法的领域适应性。
-
公开(公告)号:CN113850071B
公开(公告)日:2025-03-28
申请号:CN202111136464.1
申请日:2021-09-27
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
IPC: G06F40/205 , G06F40/30
Abstract: 本申请提供了一种文本规整方法、装置、设备及存储介质,其中,方法包括:获取待规整文本;利用预先构建的文本规整模型对待规整文本进行规整,以得到待规整文本对应的规整后文本;其中,文本规整模型采用训练样本训练得到,训练样本包括语义相同、表达不同且标注有相同规整后文本的多个训练文本,在采用训练样本训练文本规整模型时,对训练样本包含的多个训练文本的语义一致性进行约束。本申请提供的文本规整方法不但可将口语化的待规整文本规整为书面化的文本,还能保证规整后的文本语义不变。
-
公开(公告)号:CN112614514B
公开(公告)日:2024-02-13
申请号:CN202011479131.4
申请日:2020-12-15
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种有效语音片段检测方法、相关设备及可读存储介质,该方案中,针对待检测的音频信号,在进行语音片段检测,得到至少一个语音片段之后,针对每个语音片段,至少基于该语音片段对应的文本内容,对该语音片段进行有效性检测,从而判断该语音片段是否为有效语音片段。由于该方案中基于语音片段对应的文本内容对语音片段的有效性进行了进一步检测,相对于将检测出的语音片段直接作为有效语音片段,提升了有效语音片段的检测准确率。
-
公开(公告)号:CN112735385B
公开(公告)日:2024-05-31
申请号:CN202011625225.8
申请日:2020-12-30
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音端点检测方法、装置、计算机设备及存储介质,该方法包括:获取待检测语音数据;提取待检测语音数据的目标声学特征向量和目标音频特征向量,并将目标音频特征向量和目标声学特征向量进行拼接,得到目标拼接特征向量;将目标拼接特征向量输入语音端点检测模型,得到待检测语音数据的至少一个语音片段和N个转折点;基于该至少一个语音片段和N个转折点,将待检测语音数据分割成至少一个音频段。本申请通过融合语音数据的音频特征和声学特征得到语音片段和转折点,根据转折点和语音片段对语音数据进行分割,可以将包括多人说话的语音片段分割成多个单说话人的音频段,提高多人讨论场景下语音端点检测的准确性。
-
-
-
-
-
-
-
-
-