字幕制作方法及装置、计算机可读存储介质

    公开(公告)号:CN114357979A

    公开(公告)日:2022-04-15

    申请号:CN202111672294.9

    申请日:2021-12-31

    Abstract: 本申请公开了一种字幕制作方法及装置、计算机可读存储介质,属于自然语言处理技术领域。所述字幕制作方法先获得音频文件对应的第一转写文本,再对第一转写文本中对应当前时刻之前的部分进行文本校正,以获得第一校正文本,再利用第一校正文本获得历史校正信息,再利用历史校正信息更新第一转写文本中对应当前时刻之后的部分,以获得字幕校正文本。本申请使得当前时刻之后的部分基于校正历史信息被修改,从而降低相关错误再次出现的几率。且随着历史校正信息的积累,被更新后的第一转写文本中的文本错误率将逐渐降低,从而提高语音转写的准确率,并减少字幕校正的工作量。本申请能够提高字幕制作的效率。

    一种文本生成方法、装置、设备及存储介质

    公开(公告)号:CN114254595A

    公开(公告)日:2022-03-29

    申请号:CN202111527269.1

    申请日:2021-12-14

    Abstract: 本申请提供了一种文本生成方法、装置、设备及存储介质,其中,方法包括:获取指定领域的目标文本;利用预先建立的文本生成模型,生成目标文本中每个句子的辅助阅读句子,其中,文本生成模型采用指定领域中标注有真实辅助阅读句子的训练句子训练得到;根据目标文本中每个句子的辅助阅读句子,生成目标文本的篇章级辅助阅读文本。通过本申请提供的文本生成方法可针对指定领域的目标文本生成辅助阅读文本,生成的辅助阅读文本能够辅助阅读者进行阅读,从而能够大大降低阅读者对于目标文本的阅读难度,用户体验较好。

    一种生成标注数据的方法、装置、设备及存储介质

    公开(公告)号:CN113887179A

    公开(公告)日:2022-01-04

    申请号:CN202111148983.X

    申请日:2021-09-29

    Abstract: 本申请提出一种生成标注数据的方法、装置、设备及存储介质,该方法包括:从音视频数据中提取得到语音数据,以及包含与所述语音数据对应的文本内容的图像;对所述语音数据进行识别得到语音文本数据,以及从所述图像中识别得到图像文本数据;利用所述语音文本数据和所述图像文本数据对所述语音数据进行标注,得到标注数据。上述方法能够自动生成标注数据,将该方法应用于语音识别模型训练,能够显著降低生成标注数据的人力成本和时间成本,并且能够显著提高生成标注数据的效率。

    表情符号生成方法、装置、电子设备及存储介质

    公开(公告)号:CN112733546A

    公开(公告)日:2021-04-30

    申请号:CN202011580344.6

    申请日:2020-12-28

    Abstract: 本发明实施例提供一种表情符号生成方法、装置、电子设备及存储介质,所述方法包括:确定语音片段及其对应的文本;将语音片段和文本输入至情感识别模型,得到情感识别模型输出的文本的情感识别结果;基于情感识别结果,在文本中插入表情符号;其中,情感识别模型用于提取语音片段的语音特征以及文本的文本特征,并基于语音特征和文本特征进行情感识别;情感识别模型是基于样本语音片段及其对应的样本文本,以及样本情感识别结果训练得到的。本发明实施例提供的表情符号生成方法、装置、电子设备及存储介质,提高了情感识别的准确性,实现了表情符号的自动实时生成。

    一种语音意图识别方法、装置、设备及存储介质

    公开(公告)号:CN112669821A

    公开(公告)日:2021-04-16

    申请号:CN202011496997.6

    申请日:2020-12-17

    Abstract: 本申请提供了一种语音意图识别方法、装置、设备及存储介质,其中,方法包括:首先获取目标说话人的语音数据,作为目标语音数据,然后获取目标语音数据对应的语音特征,并对目标语音数据进行语音识别,获取目标语音数据的识别文本对应的文本特征,最后根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征,确定目标说话人的意图。本申请提供的语音意图识别方法通过将目标语音数据的识别文本信息与语音信息相结合,对目标语音数据进行意图识别,可以有效弥补单纯利用识别文本进行意图识别可能造成的识别错误,进而可以提高目标语音数据的意图识别结果的准确度。

    语音识别方法和电子设备、存储装置

    公开(公告)号:CN112489651A

    公开(公告)日:2021-03-12

    申请号:CN202011378944.4

    申请日:2020-11-30

    Abstract: 本申请公开了一种语音识别方法和电子设备、存储装置,其中,语音识别方法包括:获取语音识别场景下采集到的原始音频和与语音识别场景相关的第一参考列表;对原始音频进行初始识别,得到初始识别文本;从第一参考列表中,筛选与初始识别文本满足第一预设条件的参考词语,得到第二参考列表;利用第二参考列表,对原始音频进行最终识别,得到最终识别文本。上述方案,能够提高语音识别准确性。

    一种语音识别方法、装置、存储介质及设备

    公开(公告)号:CN119832896A

    公开(公告)日:2025-04-15

    申请号:CN202411938659.1

    申请日:2024-12-26

    Abstract: 本申请公开了一种语音识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标语音并提取其目标声学特征;然后将该目标声学特征输入至预先构建的语音识别模型,识别得到目标语音的语音热词识别结果;其中,语音识别模型包括音频编码器、热词编码器和解码器;解码器包括热词混合专家适配器和注意力机制网络。由于本申请是先基于适配器,利用样本语音数据及其对应的文本标注结果和样本热词文本,对端到端语音识别大模型进行训练生成了语音识别模型,不仅提高了模型训练效率并降低了训练成本,而且也有效提高了模型的识别准确度,这样,利用该语音识别模型对目标语音进行语音热词识别时,可以有效提高识别结果的效率和准确率。

    同传翻译方法、电子设备和计算机可读存储介质

    公开(公告)号:CN119811419A

    公开(公告)日:2025-04-11

    申请号:CN202510304418.X

    申请日:2025-03-14

    Abstract: 本申请公开了一种同传翻译方法、电子设备和计算机可读存储介质,该方法包括:获取待译音频;利用目标分割模型确定待译音频对应的待译文本的文本分割位置;其中,文本分割位置包括第一文本分割位置和第二文本分割位置,第一文本分割位置为待译文本中的第一子待译文本和第二子待译文本之间的位置,第二子待译文本对第一子待译文本的翻译影响度低于第一影响度阈值,第二文本分割位置为待译文本中的目标标点所在位置;按照文本分割位置,对待译音频进行分段翻译。通过上述方式,本申请能够提高同传翻译的时效性,降低同传翻译的时延。

    发动机故障诊断方法、装置、电子设备和存储介质

    公开(公告)号:CN119107978A

    公开(公告)日:2024-12-10

    申请号:CN202411361900.9

    申请日:2024-09-27

    Abstract: 本发明提供一种发动机故障诊断方法、装置、电子设备和存储介质,其中方法包括:获取待诊断车辆上发动机的音频数据,以及驾驶员的语音数据;对语音数据对应的转写文本进行信息抽取,得到关键词和语义信息;以关键词和语义信息为参考,指导音频数据进行特征提取,使得特征提取过程更关注与故障有关的音频片段,减少无关的信息,得到准确有效的音频特征;基于音频特征进行故障诊断,得到发动机的故障诊断结果,实现了全面、准确的发动机故障诊断,提升了诊断效率,拓宽了诊断范围,降低了对专业设备和人员的依赖,使得车辆能更方便地进行自我诊断,从而降低诊断成本,提高行车安全。

Patent Agency Ranking