-
公开(公告)号:CN118362977A
公开(公告)日:2024-07-19
申请号:CN202410790249.0
申请日:2024-06-19
申请人: 北京远鉴信息技术有限公司
IPC分类号: G01S5/22
摘要: 本申请提供了一种声源定位装置、方法、电子设备及存储介质,包括:分布式麦克风单元,用于开启对目标环境的录音模式,将采集的目标环境的声音信息、分布式麦克风单元的坐标信息以及采集声音信息的时间戳信息发送至中心处理单元;中心处理单元,用于基于每个分布式麦克风单元采集的声音信息以及采集的声音信息所对应的时间戳信息,确定出分布式麦克风单元之间采集的声音信息的到达时间差,基于分布式麦克风单元之间采集的声音信息的到达时间差以及分布式麦克风单元的坐标信息,确定出分布式麦克风单元所采集的声音信息的声源位置信息。实现了复杂特殊环境下多数量声源定位的效果,可以定位出广域复杂环境下声源的方位,提高了声源定位的准确性。
-
公开(公告)号:CN118609540A
公开(公告)日:2024-09-06
申请号:CN202410784996.3
申请日:2024-06-18
申请人: 北京远鉴信息技术有限公司
摘要: 本申请提供了一种语音合成方法、装置、电子设备及存储介质,该方法包括:将各语音提供者提供的语音样本数据对应的语音特征数据输入到特征提取模型中,得到各语音提供者对应的语音提供者特征数据;将各语音提供者对应的语音提供者特征数据、文本数据作为样本数据,各语音提供者提供的语音样本数据作为标签,对各语音提供者对应的语音合成模型进行训练;根据训练完成的各语音提供者对应的语音合成模型进行语音合成。本申请通过各语音提供者对应的语音提供者特征数据对语音合成模型进行训练,以通过训练完成的语音合成模型合成自然而流畅的语音,无需提前建立语音库,避免出现无法将文本转化为语音的情况。
-
公开(公告)号:CN118711621A
公开(公告)日:2024-09-27
申请号:CN202410962589.7
申请日:2024-07-18
申请人: 北京远鉴信息技术有限公司
IPC分类号: G10L25/87 , G10L25/03 , G10L25/30 , H04N21/439 , H04N21/44 , H04N21/43 , G06V40/16 , G06V10/82
摘要: 本申请提供了音视频多模态联合鉴伪方法、装置、电子设备及存储介质,包括:对音频信息进行语音活动检测处理得到多个语音活动音频,再对多个语音活动音频依次进行音频特征提取、音频片段起终点检测以及唇动生成,确定出音频表征向量、活动音频起终点序列以及语音驱动生成的唇动序列;对图像信息进行唇动检测、唇动起终点检测以及人脸特征提取,确定出人脸唇动序列、唇动活动起终点序列以及人脸表征向量;对音频表征向量、活动音频起终点序列、语音驱动生成的唇动序列、人脸唇动序列、唇动活动起终点序列以及人脸表征向量进行一致性检测融合处理,确定出目标视频的真伪类别,从而实现了利用双模态信息间的相关性进行鉴伪工作提升了鉴伪算法的性能。
-
公开(公告)号:CN118362977B
公开(公告)日:2024-08-23
申请号:CN202410790249.0
申请日:2024-06-19
申请人: 北京远鉴信息技术有限公司
IPC分类号: G01S5/22
摘要: 本申请提供了一种声源定位装置、方法、电子设备及存储介质,包括:分布式麦克风单元,用于开启对目标环境的录音模式,将采集的目标环境的声音信息、分布式麦克风单元的坐标信息以及采集声音信息的时间戳信息发送至中心处理单元;中心处理单元,用于基于每个分布式麦克风单元采集的声音信息以及采集的声音信息所对应的时间戳信息,确定出分布式麦克风单元之间采集的声音信息的到达时间差,基于分布式麦克风单元之间采集的声音信息的到达时间差以及分布式麦克风单元的坐标信息,确定出分布式麦克风单元所采集的声音信息的声源位置信息。实现了复杂特殊环境下多数量声源定位的效果,可以定位出广域复杂环境下声源的方位,提高了声源定位的准确性。
-
-
-