-
公开(公告)号:CN111883151B
公开(公告)日:2024-08-30
申请号:CN202010753656.6
申请日:2020-07-30
申请人: 云知声智能科技股份有限公司 , 厦门云知芯智能科技有限公司
发明人: 刘青松
IPC分类号: G10L21/02 , G10L21/028 , G10L21/0356
摘要: 本发明提供一种音频信号的处理方法、装置、设备和存储介质,方法包括确定视频采集设备的视场范围;从采集的所有音频信号中选取位于视频采集设备的视场范围内的待处理音频信号后,对所述待处理音频信号进行增强处理,得到增强音频信号。本发明的技术方案实现了利用视场和声音结合的方式对特定目标、特定方向、特定区域范围的声源定位和增强处理,从而提高了音频信号处理的灵活性、准确性。
-
公开(公告)号:CN117857846A
公开(公告)日:2024-04-09
申请号:CN202410045457.8
申请日:2024-01-11
申请人: 广州虎牙信息科技有限公司
IPC分类号: H04N21/236 , H04N21/242 , H04N21/43 , H04N21/845 , G10L21/0356 , G10L25/57 , G10L25/63
摘要: 本申请实施例提出一种音画同步方法、装置、电子设备和计算机可读存储介质,涉及计算机技术领域。获取待同步视频,并对待同步视频进行拆分,获得待同步音频流以及待同步画面流;将待同步音频流输入至事先训练好的人脸画面预测模型中,利用人脸画面预测模型对待同步音频流进行人脸画面预测,输出待同步音频流对应的第一人脸表情序列;根据第一人脸表情序列以及待同步画面流,确定待同步音频流与待同步画面流之间的偏差值;根据偏差值对待同步音频流进行调整,并对调整后的待同步音频流和待同步画面流进行合并,以获得音画同步后的待同步视频,因此无需工作人员手动进行音画同步,可提高音画同步的效率以及准确率。
-
公开(公告)号:CN115985273B
公开(公告)日:2023-12-26
申请号:CN202310273762.8
申请日:2023-03-21
申请人: 北京卓颜翰景科技有限公司
发明人: 颜山
IPC分类号: G10H1/00 , G10L21/013 , G10L21/0232 , G10L21/0356
摘要: 本发明涉及语音识别技术领域,具体涉及一种基于多传感器数据融合的记谱方法及系统,通过获取同一乐器演奏场景下的乐器演奏视频和乐器演奏音频,根据乐器演奏视频,确定乐器演奏区域和人体手部重合的目标视频帧以及目标视频帧的音符标签;根据乐器演奏音频,确定各个音频段;确定各个音频段对应的音符标签,结合与各个音频段对应的音符标签相同的各个标准音频数据段,确定各个音频段的音频差异段,进而确定目标音频差异段,根据目标音频差异段,对乐器演奏音频进行去噪处理,从而得到乐谱数据。本发明结合乐器演奏视频和乐器演奏音频,对乐器演奏音频进行去噪,使音符识别结果更加准确,有效提高了生成乐谱的准确性。
-
公开(公告)号:CN116758935A
公开(公告)日:2023-09-15
申请号:CN202310637854.X
申请日:2023-05-31
申请人: 北京智精灵科技有限公司
IPC分类号: G10L21/0272 , G10L21/0356 , G10L15/25
摘要: 本发明公开了一种用于人机交互时分离音频数据的方法、系统及可存储介质。该方法包括如下步骤:获取用户进行人机交互的视频数据和音频数据;基于视频数据和音频数据,获取同一时刻开始且连续的图像序列和音频序列;基于图像序列,获取用户的唇部信息;基于用户的唇部信息,计算用户的唇部开合程度,以形成唇部波动序列;基于判断唇部波动序列的波动幅度,判断唇部波动序列的稳定状态;在同一时间坐标轴下,将唇部波动序列与音频序列对齐,以通过唇部波动序列的稳定状态标记音频序列的起始点和结束点;在音频序列中,截取起始点与结束点之间的音频流作为用户本次人机交互的有效音频数据。
-
公开(公告)号:CN116508100A
公开(公告)日:2023-07-28
申请号:CN202180070558.5
申请日:2021-09-02
申请人: 索尼互动娱乐股份有限公司
IPC分类号: G10L21/0356
摘要: 由机器学习引擎处理来自计算机模拟的文本和言语以使计算机化身的面部(202)动画化(306)。
-
公开(公告)号:CN114141245A
公开(公告)日:2022-03-04
申请号:CN202111366940.9
申请日:2017-10-31
申请人: 谷歌有限责任公司
发明人: 金澯佑 , R.C.农皮乌尔 , M.A.U.巴奇亚尼
IPC分类号: G10L15/22 , G10L15/25 , G10L15/06 , G10L21/0356 , G06V40/20
摘要: 描述了用于改善由用户提交的言语查询的端点检测的系统和方法。在一些实施方式中,接收同步的视频数据和音频数据。确定包括与脸部上的唇部移动对应的图像的视频数据的帧序列。基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据来端点化音频数据。端点化的音频数据的录音由自动语音识别器生成。然后生成的录音被提供用于输出。
-
公开(公告)号:CN114023299A
公开(公告)日:2022-02-08
申请号:CN202111269322.2
申请日:2021-10-29
申请人: 福建星网视易信息系统有限公司
IPC分类号: G10L13/02 , G10L21/034 , G10L21/0356 , G10L25/51 , G10L25/69 , G10L25/87 , H04L67/55 , H04L67/12
摘要: 一种网络合唱方法及系统,其中方法包括步骤,接收对应同一歌曲的第一演唱信息及第二演唱信息,根据预设切片规则对所述第一演唱信息及第二演唱信息进行切分片段,根据预设评分规则判定各切分片段的演唱评分,根据各切分片段的演唱评分对各切分片段进行音量的增益或减益,根据对应同一歌曲的演唱顺序,合成同一顺序的第一演唱信息的切分片段和第二演唱信息的切分片段。上述技术方案能够根据预设规则将演唱的歌曲进行分段,在需要进行混音合成的时候,能够以不同片段为比较基础,进行打分比较,再增益得分较高的演唱片段,这样能够使得混音合成的效果更好。
-
公开(公告)号:CN105934792A
公开(公告)日:2016-09-07
申请号:CN201480073894.5
申请日:2014-11-24
申请人: 邦吉欧维声学有限公司
IPC分类号: G10L21/0356
CPC分类号: H04R3/00 , H04R1/1033
摘要: 本发明提供一种线缆,该线缆增强两个设备(如mp3播放器与扬声器系统、或机顶盒与家庭剧院系统)之间的音频信号。该线缆包括用于处理该信号的集成的硬件和软件元件。在各个实施例中,该线缆还可以包括用户接口和可选配置文件,这些可选配置文件针对各个目的调整处理方案,如针对具有高环境噪声的环境的配置文件、或针对特定音乐风格的配置文件。
-
公开(公告)号:CN105185384A
公开(公告)日:2015-12-23
申请号:CN201510319650.7
申请日:2015-06-11
IPC分类号: G10L21/0208 , G10L21/0356
CPC分类号: G10L21/0208 , G10L21/0356
摘要: 本发明公开了一种具有环境模拟功能的音控播放系统及控制方法,包括语音采集端,数据处理端,音频播放器、视频播放器、交换机和环境模拟装置;数据处理端包括处理器、存储器和滤波器。本发明具有通过人员的“语音指令”来变换场景中的“气象”,并依据“气象”对播放的视觉内容、音频与体感设备做出相应反应,改变场景环境,提升了现场感和沉浸感的特点。
-
公开(公告)号:CN114023299B
公开(公告)日:2024-10-29
申请号:CN202111269322.2
申请日:2021-10-29
申请人: 福建星网视易信息系统有限公司
IPC分类号: G10L13/02 , G10L21/034 , G10L21/0356 , G10L25/51 , G10L25/69 , G10L25/87 , H04L67/55 , H04L67/12
摘要: 一种网络合唱方法及系统,其中方法包括步骤,接收对应同一歌曲的第一演唱信息及第二演唱信息,根据预设切片规则对所述第一演唱信息及第二演唱信息进行切分片段,根据预设评分规则判定各切分片段的演唱评分,根据各切分片段的演唱评分对各切分片段进行音量的增益或减益,根据对应同一歌曲的演唱顺序,合成同一顺序的第一演唱信息的切分片段和第二演唱信息的切分片段。上述技术方案能够根据预设规则将演唱的歌曲进行分段,在需要进行混音合成的时候,能够以不同片段为比较基础,进行打分比较,再增益得分较高的演唱片段,这样能够使得混音合成的效果更好。
-
-
-
-
-
-
-
-
-