一种用于AR眼镜的远程语音交互方法及系统

    公开(公告)号:CN118098253A

    公开(公告)日:2024-05-28

    申请号:CN202410446471.9

    申请日:2024-04-15

    摘要: 本申请涉及增强现实的技术领域,公开了一种用于AR眼镜的远程语音交互方法及系统,所述方法包括获取影像录制数据和音频录制数据并输入至影音分析模型中,分析所述音频录制数据,生成若干音源文本信息并标记对应的音源标识信息和时间轴信息;分析所述影像录制数据,识别若干音频来源图像,基于各音频来源图像的动作特征和各音源文本信息的时间轴信息,将音源标识信息与音频来源图像关联;基于各音频来源图像分析对应的音源位置信息,基于各音源位置信息和对应的音源文本信息,生成字幕投影数据并发送至显示组件;本申请具有提高听力辅助产品的语音信息获取效率的效果。

    数据处理方法、装置及设备
    2.
    发明公开

    公开(公告)号:CN117612556A

    公开(公告)日:2024-02-27

    申请号:CN202311554838.0

    申请日:2023-11-21

    发明人: 吕安旗 王志铭

    摘要: 本说明书实施例提供了一种数据处理方法、装置及设备,其中,该方法包括:基于预设时间步长对待识别的音频数据进行文本识别处理,在当前时间步长对应的候选识别序列包含预设关键字符,且当前时间步长对应的字符包含识别概率大于预设概率阈值的空字符的情况下,基于预设关键字符对应的预设分值、预设关键字符权重,对当前时间步长对应的候选识别序列的识别分值进行更新处理,基于更新后的当前时间步长对应的候选识别序列的识别分值,确定当前时间步长对应的识别序列,继续确定当前时间步长的下一个时间步长对应的识别序列,得到最后一个时间步长对应的识别序列,基于最后一个时间步长对应的识别序列的识别分值,确定与音频数据对应的文本识别结果。

    语音数据处理方法、装置、计算机设备和存储介质

    公开(公告)号:CN117351928A

    公开(公告)日:2024-01-05

    申请号:CN202210762067.3

    申请日:2022-06-29

    发明人: 谭应伟 丁雪枫

    摘要: 本申请涉及一种语音数据处理方法、装置、计算机设备和存储介质。该方法包括:获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容;从各语音数据中提取得到对应的语音特征;根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果;根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段;将各语音片段进行拼接,得到语音说话者对应的目标语音数据。采用本方法能够利用语音数据拼接的方式,通过对至少两种不同的语音数据的内容进行拼接,产生了具有新的文本内容的语音数据,提高语音数据的多样性。

    虚拟对象口型驱动方法、相关装置和介质

    公开(公告)号:CN116665695B

    公开(公告)日:2023-10-20

    申请号:CN202310936907.8

    申请日:2023-07-28

    IPC分类号: G10L21/0356

    摘要: 本公开提供了一种虚拟对象口型驱动方法、相关装置和介质。该虚拟对象口型驱动方法包括:获取虚拟对象的面部标识;获取用于驱动虚拟对象的目标语音,目标语音中每个时区对应于虚拟对象的口型驱动视频中的一帧;从目标语音中提取语音特征,并将每个时区的语音特征与时区的位置信息进行编码得到第一编码串;对第一编码串与面部标识进行变换层处理,得到与时区对应的、虚拟对象的表情系数;基于时区对应的表情系数,在位置信息对应的帧中,对虚拟对象进行口型驱动。本公开实施例提高了口型驱动的准确性和时序稳定性。本公开实施例可应用于机器人与数字人等场景。

    一种艺术体操动作生成方法
    5.
    发明公开

    公开(公告)号:CN116847042A

    公开(公告)日:2023-10-03

    申请号:CN202310404448.9

    申请日:2023-04-11

    摘要: 本发明公开了一种艺术体操动作生成方法,包括:对专业的艺术体操运动员进行动作捕捉;先进行音频特征提取,将音频特征分为音频片段;艺术体操动作捕捉视频分为视频片段;将音频片段和体视频片段进行数据归一化,再输入至生成扩散模型中,进行模型训练;对每个艺术体操片段生成的体操动作和音频的适配性进行打分,得分最高的艺术体操片段作为生成片段保留;使用损失函数结合动量梯度下降法算法对数据集的视频进行训练,得到艺术体操动作生成模型,输入音频通过模型得到艺术体操动作视频。本发明使用了生成扩散模型用于艺术体操的,相比于GAN等神经网络模型具有长期建模能力,能够生成长期稳定的动作序列。

    声波纹直播方法、装置、服务器、客户端设备及存储介质

    公开(公告)号:CN111383656B

    公开(公告)日:2023-05-23

    申请号:CN202010187645.6

    申请日:2020-03-17

    发明人: 刘鑫 王涣祺

    摘要: 本申请提供一种声波纹直播方法、装置、服务器、客户端设备及存储介质,涉及互联网应用领域。本申请通过服务器获取同一互动直播间中至少一个主播通过目标客户端设备上传的待直播语音信号,并由服务器基于获取到的待直播语音信号以及每个待直播语音信号的音量信息及主播信息,使生成的待直播音频流中的每个待直播音频帧记录有与音频内容对应的主播信息及音量信息,而后将该待直播音频流传输给该互动直播间下的每个目标客户端设备,由目标客户端设备在对每个待直播音频帧进行音频播放的同时,按照每个待直播音频帧的主播信息及音量信息显示声波纹图案,从而达到音频播放与声波纹显示的同步直播效果,准确表达被播音频与发声主播的关联关系。

    音频播放方法、装置、设备及存储介质

    公开(公告)号:CN116095558A

    公开(公告)日:2023-05-09

    申请号:CN202310081598.0

    申请日:2023-01-14

    发明人: 邓志涛

    摘要: 本发明提供了一种音频播放方法、装置、设备及存储介质。上述音频播放方法包括:在接收到对歌曲文件的播放指令的情况下,获取歌曲文件对应的第一音频、第二音频,以及歌曲文件对应的歌词文本;对第一音频、第二音频、以及收集到的目标用户的人声音频进行混音,生成目标音频;在目标用户佩戴的第一设备中播放目标音频,以及在第二设备中显示歌词文本,以使得目标用户查看歌词文本。本发明中,通过在目标用户佩戴的第一设备中播放对第一音频、第二音频和人声音频进行混音后生成的目标音频,使得目标用户可以通过第一设备获取到歌曲文件的原唱音频,并可以通过第二设备查看歌词文本,以此辅助目标用户表演,提高演出效果,也避免了演出事故的发生。

    一种面向响度的高效音频控制方法

    公开(公告)号:CN108711435A

    公开(公告)日:2018-10-26

    申请号:CN201810541159.2

    申请日:2018-05-30

    申请人: 中南大学

    摘要: 本发明阐述了一种面向响度的高效音频控制方法。随着数字电视技术的发展,越来越清晰的视频带给观众一场新的视觉体验,不一致的音频响度又使得观众不得不频繁使用遥控器调整音量。为了解决响度差异问题,提出了一种面向响度的高效音频控制方法解决方案,设计了多参数融合的响度控制算法。基于响度的音频AGC算法是对数字音频信号进行响度自动增益控制,测量输入音频响度,结合用户设置的目标响度、动态范围、背景响度测量时间等参数,确定动态增益,最后处理音频信号。有效地将输出音频的响度控制在目标范围内,并且包括噪声在内的背景音不被提升,响度控制速度快,输出音频稳定平衡不生硬,满足人们的听觉感知需要。

    电视画面和外设声音同步控制方法和装置

    公开(公告)号:CN106782598A

    公开(公告)日:2017-05-31

    申请号:CN201611176437.6

    申请日:2016-12-15

    发明人: 全浩伟

    摘要: 本发明公开了一种电视画面和外设声音同步控制方法,包括:将目标码流中的图像信号和声音信号解码,提取解码的声音信号在目标时段内声音振幅峰值,并将声音信号传输到外部设备中播放;采集环境声音,并提取目标时段内环境声音振幅峰值;将提取的解码声音振幅峰值与环境声音振幅峰值进行对比,计算电视画面播放与传输至外部设备播放的声音时间差;根据所述时间差控制电视图像信号延时输出。本发明还公开了一种电视画面和外设声音同步控制装置。有效避免现有电视画面和外设声音不同步的情况,提升了用户的视听体验,增强了用户体验度。