-
公开(公告)号:CN115376542B
公开(公告)日:2024-09-17
申请号:CN202211005193.0
申请日:2022-08-22
Applicant: 西南科技大学
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明公开了一种低侵入性的视听语音分离方法及系统,该方法包括以下步骤:获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;构建低侵入性视听语音分离模型;利用预处理后的数据训练视听语音分离模型;将待分离的视听语音输入已训练好的视听语音分离模型中,分离出各目标对象的语音。本发明构建了一种新的视觉模态模型,将视觉特征的提取分为双支路结构,该结构同时融合了说话人的动态特征与语义特征,可在人脸图像分辨率不具备隐私侵入性的情况下有效关注可辅助语音分离的唇部动态特征,这使系统既能达到语音分离的目的又可以保护使用者的隐私信息。
-
公开(公告)号:CN118329313A
公开(公告)日:2024-07-12
申请号:CN202410483292.2
申请日:2024-04-22
Applicant: 西南科技大学
Abstract: 本发明提供了一种视听融合的气体泄漏检测方法,用于气体泄漏检测,通过麦克风阵列持续采集声音信息并形成初始声学图像,检测到存在泄漏源时,对麦克风阵列进行优化,得到最优阵列阵型下的声学图像;采集可见光图像、红外图像、声源距离信息;对声学图像、可见光图像和红外图像进行分频段融合,得到融合图像;其中,融合图像包含气体泄漏处的真实图像信息、声压信息、距离信息和温度信息,通过融合图像完成气体泄漏检测。本发明通过融合多维度信息,可提高检测的准确性,降低环境、气体种类等因素对检测结果的影响。采用可变阵型的麦克风阵列可有效的节省计算成本,提高检测的准确性和检测的效率。
-
公开(公告)号:CN115376542A
公开(公告)日:2022-11-22
申请号:CN202211005193.0
申请日:2022-08-22
Applicant: 西南科技大学
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明公开了一种低侵入性的视听语音分离方法及系统,该方法包括以下步骤:获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;构建低侵入性视听语音分离模型;利用预处理后的数据训练视听语音分离模型;将待分离的视听语音输入已训练好的视听语音分离模型中,分离出各目标对象的语音。本发明构建了一种新的视觉模态模型,将视觉特征的提取分为双支路结构,该结构同时融合了说话人的动态特征与语义特征,可在人脸图像分辨率不具备隐私侵入性的情况下有效关注可辅助语音分离的唇部动态特征,这使系统既能达到语音分离的目的又可以保护使用者的隐私信息。
-
公开(公告)号:CN111121619A
公开(公告)日:2020-05-08
申请号:CN201811296003.9
申请日:2018-11-01
Applicant: 西南科技大学
Abstract: 本发明公开了一种基于激光测距的空间几何自动测量方法,主要涉及全方位转动云台、激光测距模块、姿态传感器、旋转驱动装置、摄像头和控制中心;旋转驱动装置可驱动云台可全方位转动,并带动激光测距模块转动可实现空间三维坐标系的建立,并结合测得的姿态参数和距离参数,可对待测空间几何图形的特征点(能够重构其空间几何图形的点)实现空间坐标定位;再通过空间几何运算可解算出其详细参数,并解决实际的测量需求;控制中心通过摄像头反馈控制使激光斑点自动依次重合于待测图形的特征点,进而实现自动打点测量。通过上诉方式,本发明能够实现复杂环境、危险环境或不可直接到达等特殊环境下各种几何参数的方便、快速、自动、安全测量。
-
-
-